【云駐共創】云享 MindTalks · 第十七期--探索性數據分析方法

      網友投稿 870 2025-03-31

      目錄:

      1.前言

      2.理解數據科學

      3.探索性數據分析方法的核心理念

      4.探索性數據分析方法的階段劃分

      5.探索性數據分析方法的基本步驟

      6.常用軟件與工具

      7.問題匯總

      8.總結

      1、 前言

      面對紛繁復雜的數據,如何尋求并發現數據隱含的內在規律?探索性數據分析為我們提供了一個全新的視角,以實際數據為依據,不對數據分布做預先假設,而是直觀審視數據以及數據可視化,以促進我們發現規律,得到啟迪,滿足數據分析的多方面需求,也包括了相關性分析的要求。

      探索性數據分析是我們對于數據中隱含的信息真正開始了解的階段。在探索期間可能需要采用多種類型的數據轉換技術。而描述性統計會給出探索,概括以及描述數據的圖形法和數值法,這些直觀圖形和數值量度,取決于我們希望描述的數據類型,例如定量的或者定性的。描述性統計的相關知識,是統計學背后的數學基礎。

      這次讓我們一起了解,探索性數據分析方法的核心理念與基本步驟--復雜數據的調查、匯總、理解與應用之道。

      2、 理解數據科學

      數據科學:

      ? 涉及多個領域的跨學科知識,包括計算機科學,數據信息,統計學,以及數學

      ? 數據科學正處于熱度不減的巔峰時刻,同時數據科學家的技能也正在改變

      ? 要成為頂尖的數據科學家,我需要學習什么類型的技能?

      “數據科學家不僅僅需要構建出色的數學模型,更重要的是能夠闡釋已獲得的成果并將成果用于商業智能的開發當中。”? ? ----Suresh Kumar Mukhiya

      數據科學是將數據轉化為決策和行動(tradecraft)的藝術,是人和計算機一起工作將數據轉化為知識發現的工具、技術和流程的整合。數據學科通過收集數據、描述數據、發現知識,進而進行合理的有針對性的預測和建議。

      什么是數據科學家?數據科學家收集和清理大量的數據,維護易于使用的儀表板和數據庫,解釋數據以解決問題和運行實驗,建立算法,并以吸引人的可視化方式將數據呈現給利益相關者。

      為什么建議大家要去了解數據科學呢,因為數據(及其應用)是溝通理解成本最低的語言,能幫助大家在復雜問題面前迅速進入同一個頻道來進行思考。

      數據科學是否難,其實取決于你的背景以及你是否喜歡與數字、數據打交道。盡管數據科學家不需要像數據工程師那樣使用軟件工程或者機器學習技術,但是你需要學習如何編寫代碼來建立預測模型。

      學習數據科學不需要高等學歷,盡管大部分招聘信息列出了工程學、計算機科學、數學或統計學碩士或博士學位,但對數據科學家的需求量遠遠大于供應量,這意味著企業愿意雇傭非傳統的申請者。實際上,很多頂級公司,比如谷歌,蘋果和 IBM,都不再要求申請者具有大學學歷。

      如果你想在沒有學位的情況下進入數據科學領域,你可以參加在線課程和認證項目,或者通過視頻和模塊自學。

      此外,數據科學的學習曲線非常陡峭,它涉及棘手的問題、大量的數據、專業技術和領域知識。但是幸運的是,有很多免費的在線資源可以幫助你開始成為一名初級數據科學家。最后,你還要熱愛學習,因為數據科學家需要不斷提高技能,學習新技術。

      我們在認識一個復雜問題時,通常需要把它拆解為不同維度不同指標以便于理解,這個過程的絕大部分可以靠數據來完成。比如今年的疫情,通過下面這樣一張圖就可以直截了當了解各省份的情況。若是還想要了解更詳細的情況,也是可以通過其他數據支撐來實現的。

      試想,如果不用數據作為支撐,我們該怎么去了解疫情狀況,又該如何向別人闡述現在的情況呢?

      可以這樣去理解,數據科學融合了諸多理論和技術,旨在從海量數據中挖掘有價值的信息,并應用到生產實踐當中,提高社會生產效率。數據科學沒有學科限制,幾乎可以為所有學科所有領域服務。

      3、 探索性數據分析方法的核心理念

      “將探索性數據分析方法納入統計學專家的工具箱里面,以便于對數據進行探查和發現信息并建立更加嶄新的假設,從而在數據收集與實驗的過程中開發出更加新穎的研究方法。”

      ----John Tuckey

      核心理念:

      ? 探索性數據分析方法,Exploratory Data Analysis(EDA)

      ? 拿到數據后,探查現有可用的數據集從而發現數據模型,異常點,檢驗假設,以及采用統計度量措施來驗證假設的過程。

      ? 主要目的就是在實際進行正式建模或者形成假設之前探查出數據可以告知我們什么信息。

      ? 該方法讓我們通過可視化技術來理解數據并為進一步的分析做出假設。其重點就是為后續步驟建立數據概要或者提供洞察信息在沒有做出任何基本假設的情況下,探索性數據分析方法實際上揭示出了數據隱含的基本事實。

      通過探索性分析,可以做以下的工作:

      1、 寫出一系列你自己做的假設,然后接著做更深入的數據分析。

      2、 記錄下自己探索過程中更進一步的數據分析過程。

      3、把自己的中間的結果給自己的同行看看,讓他們能夠給你一些更有拓展性的反饋、或者意見。不要獨自一個人做,要走出去,多多交流,打開新的世界。

      4、將可視化與結果結合一起。探索性數據分析,就是依賴你好的模型意識,一般把模型的敏感度叫心智模型,最初的心智模型可能錯了,一旦自己的結果違背自己的假設,就要立即回去詳細的思考。所以我們在數據探索的盡可能把自己的可視化圖和結果放一起,這樣便于進一步分析。

      4、 探索性數據分析方法的階段劃分

      階段劃分:8個階段類似于跨行業數據挖掘標準流程 (CRISP-DM)中用

      CRISP-DM代表跨行業的數據挖掘過程,CRISP-DM 模型是KDD模型的一種。CRISP-DM方法論提供了計劃數據挖掘項目的結構化方法。這是一種可靠且經過驗證的方法。

      1、數據需求確定[多種數據源/存儲類型/數據分類]

      2、數據收集[以正確的格式進行存儲]

      3、數據處理[預整理過程/導出數據集/存放到正確的表格/結構化處理]

      4、數據清洗[數據轉換/完整性/數據重復性/數據錯誤/缺失值檢查]

      5、探索性數據分析[數據中隱含的信息/采用多種類型的數據轉換技術]

      6、數據建模與算法應用[模型用來描述自變量和因變量之間的關系]

      7、數據產品[數據作為輸入,進而產生輸出/推薦模型]

      8、信息傳遞與成果展示[成果傳遞/服務于商業智能/數據可視化]

      5、 探索性數據分析方法的基本步驟

      ?問題定義[在提取有用的洞察信息之前,定義需要解決的業務問題]

      ?數據準備[定義數據源/定義數據架構模式和數據表/理解數據的主要特征/清洗數據集/刪除不相關的數據集/轉換數據/數據分塊]

      ?數據分析[匯總數據/發現數據之間隱藏的相關性和關聯關系/開發預測模型/評估模型/計算精度/匯總表,圖表,描述性統計,推斷統計,相關性統計,檢索,分組,以及數學模型]

      ?應用開發與成果表示[以圖表,匯總表,地圖,以及圖解示意圖的形式向目標群體展示數據集信息/從數據集獲取到的分析成果應該便于業務相關人員進行解讀,這是探索性數據分析的主要目標之一/散點圖,字符圖,直方圖,箱線圖,殘差圖,均值圖]

      探索性數據分析如何保證數據分析結果是準確的,科學的,讓人滿意的?

      在每個階段和步驟中,都有著特別細致的問題和困難,我們不得不面臨著各種各樣的挑戰,這就需要不斷地去嘗試與迭代,放下成見,洞悉數據本身,采用多種數據轉換技術以及更直觀的數據可視化技術,去探查數據隱含的更有價值的信息,從而發現內在規律,得到啟迪。

      6、 常用軟件與工具

      ?Python語言[廣泛用于數據分析,數據挖掘,以及數據科學領域]

      ?R語言[廣泛用于統計計算以及圖形數據分析領域]

      ?Weka[開源的數據挖掘軟件包/含有探索性數據分析方法中用到的多種工具和算法]

      ?KNIME[基于Eclipse集成開發環境,用于數據分析的開源工具]

      ?Python庫-NumPy[數據分析與科學計算基礎軟件包]

      ?Python庫-Pandas[數據分析支持庫]

      ?Python庫-SciPy[用于科學計算的開源Python庫]

      ?Python庫-Matplotlib[大量的可自定義的繪圖庫,全面完整的后端程序。報表應用程序/

      交互式分析應用程序/復雜儀表盤應用程序]

      探索性數據分析過程主要使用哪些指標來代表數據的分布?有沒有好用的一些分析工具?

      一般來說,數據維數的增大使得一些傳統的數據分析方法失效,而采用多維數據的可視化技術,將高維的數據轉換為我們視覺能夠感知的二維或者三維空間,其中典型的方法包括:投影尋蹤和獨立成分分析,也就帶來了不同的觀察視角,進而采用量化的指標體系,例如投影指標。

      7、 問題匯總

      問題1:探索性數據分析方法有什么優勢?

      探索性數據分析方法讓我們有機會通過可視化技術來理解數據并為進一步的分析做出假設。在數據挖掘的項目中,探索性數據分析方法的重點就是為后續步驟建立數據概要或者提供洞察信息。在沒有做出任何基本假設的情況下,探索性數據分析方法實際上揭示出了數據隱含的基本事實。事實上,數據科學家正是采用該分析過程來了解可以創建什么類型的數據模型以及數據假設。

      問題2:探索性數據分析方法和傳統數據分析方法有何不同?有哪些特點?

      對于經典數據分析方法,在問題定義和數據收集步驟之后,緊接著就是數據模型的開發,然后進行數據分析以及信息傳遞與成果展示。而對于探索性數據分析方法,則是將數據模型開發與數據分析這兩個步驟做了前后交換,其主要關注數據本身,數據的結構,異常值,數據模型,以及數據可視化。一般來說,在探索性數據分析方法中,我們不會對數據做出任何確定性模型或者概率模型的先驗假設。

      問題3:探索性數據分析方法未來發展前景如何?

      探索性數據分析的主要目的就是在實際進行正式建模或者形成假設之前探查出數據可以告知我們什么信息。John Tuckey倡導將探索性數據分析方法納入統計學專家的工具箱,以便于對數據進行探查和發現信息并建立更加嶄新的假設,從而在數據收集與實驗的過程中開發出更加新穎的研究方法。我們期待著探索性數據分析方法有著更為廣闊的發展前景。

      問題4:探索性數據分析方法可以應用在哪些方面?

      不妨參考一下這樣的應用場景:對于收集到的數據,需要采取適當和完善的數據處理策略。在僅有少量數據點,也缺少計算機程序輔助的情況下,幾乎不可能理解數據集的含義。收集到的數據在確定可以提供有價值的洞察信息并決定做進一步處理之前,需要執行數據挖掘,也就是經歷一段獨特的數據分析過程。而在數據挖掘中,探索性數據分析通常是最重要的,應該首先去嘗試的分析方法。我們每天都在產生數據,在線購物與消費產生了交易數據,觀看視頻參與互動產生了社交數據,在如此眾多的數據中,采用探索性數據分析方法來探查用戶的行為與喜好,以更好地為用戶服務,例如精準推薦。

      問題5:探索性數據分析有哪些步驟?需要準備什么?

      基本上,探索性數據分方法包含了四個不同的步驟:

      S1:問題定義;S2:數據準備;S3:數據分析;S4:應用開發與成果表示

      在S1中,定義需要解決的業務問題則是至關重要的。在S2中,定義數據源,定義數據架構模式和數據表,理解數據的主要特征,清洗數據集,刪除不相關的數據集,轉換數據,并將數據細分為便于分析處理的數據分塊。在S3中,匯總數據,發現數據之間隱藏的相關性和關聯關系,開發預測模型,評估模型,以及計算精度。一些用于數據匯總的技術包括:匯總表,圖表,描述性統計,推斷統計,相關性統計,檢索,分組,以及數學模型。 在S4中:采用圖表,匯總表,地圖,以及圖解示意圖的形式向目標群體展示數據集信息,以便于業務相關人員進行解讀。

      問題6:是否有“探索性數據分析方法”的相關學習書籍推薦呢?想具體了解一下這方面知識。

      Ref-01:《大數據探索性分析》(第2版),主編:吳翌琳 房祥忠,中國人民大學出版社;

      Ref-02:《統計學》(原書第6版),關靜 等譯,機械工業出版社;

      Ref-03:《大數據時代下的統計學》(第2版),楊軼莘 編著;

      Ref-04:《數據分析即未來:企業全生命周期數據分析應用之道》,陳道斌 萬芊 等譯;

      在不同的時期,以及所關注方向的差異性,我們選擇的參考書籍或許是不同的,建議在正式購買之前,不妨先試讀一些樣章,或者去書店翻看一下,看是否適合自己,再決定是否購買,畢竟我們書架上的位置是有限的。

      問題7:探索性數據分析有哪幾種?可以用哪些語言進行探索性數據分析?

      數據分析有好多種方法,探索性數據分析方法與經典方法以及貝葉斯分析方法有所不同。主要體現在數據模型開發與數據分析這兩個步驟做了前后交換,以及貝葉斯數據分析方法中融合了先驗概率分布的知識。 Python語言和R語言是進行探索性數據分析常用的編程語言,Weka和KNIME是常用的軟件工具包。

      問題8:探索性數據分析如何做好數據預處理?有哪些注意事項?

      常見的預處理任務包括:正確地導出數據集,將數據存放到正確的表格中,進行結構化處理,以及采用正確的格式導出數據。這其中非常重要的事項就是“正確性”。

      總結:

      不少人認為,數據科學是少數幾個專業的事情,比如計算機、數學、統計等等。著實,數據科學的根腳在理工領域,但是它的發展應用卻是全學科的,它與每個人都息息相關。于整個社會而言,數據科學的潛力和生產力基本已經得到驗證和肯定。

      于高校而言,數據科學是探索新文科建設、跨學科交叉領域研究及人才培養方案新模式的良好途徑。于個人而言,我們不一定要深入研究數據科學,但是不能對它一無所知。

      數據科學素養是當今時代背景下信息素養的重要組成部分,信息素養大家應該都不陌生,它指的是人們對信息社會的適應能力,要求人們認識到精確、完整的信息是做出合理決策的基礎。

      探索性數據分析是我們對于數據中隱含的信息真正開始了解的階段。在探索期間可能需要采用多種類型的數據轉換技術。而描述性統計會給出探索,概括以及描述數據的圖形法和數值法,這些直觀圖形和數值量度,取決于我們希望描述的數據類型,例如定量的或者定性的。描述性統計的相關知識,是統計學背后的數學基礎。

      在學習探索性數據分析方法和傳統數據分析方法中,我們不妨參考這樣的思路來綜合考慮:現在需要解決什么樣的數據分析問題?能否有機會去嘗試采用探索性數據分析方法?如果研發團隊正好愿意做這樣的嘗試,那么去查閱一下探索性數據分析方法的相關書籍與文獻,其中自然會有相關的知識列表與清單,哪些是自己沒有接觸到的,需要補充與加強的,也就比較清晰了。

      【云駐共創】云享 MindTalks · 第十七期--探索性數據分析方法

      在這個過程中,一定要抓住重點問題,不要面面俱到,盲目擴展知識領域,例如用到了統計學的部分知識,不妨先查看相關章節,大致了解就好,而不是在一開始就把統計學完整地再學習一遍。

      注:本文整理自【內容共創系列】之 探索性數據分析方法

      查看活動詳情:https://bbs.huaweicloud.com/blogs/298594

      應用與數據集成平臺 ROMA Connect 數據可視化 數據挖掘

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:excel怎么制作考勤表 excel快速制作考勤表教程
      下一篇:ppt表格中的斜線怎么弄并輸入文字(PPT表格斜線怎么上下打字)
      相關文章
      久久影视综合亚洲| 亚洲精品国产V片在线观看| 亚洲熟妇无码另类久久久| 亚洲AV无码一区二区三区在线观看 | 亚洲成a人片在线观看中文动漫| 国产亚洲欧洲Aⅴ综合一区| 亚洲А∨精品天堂在线| 亚洲成人影院在线观看| 亚洲成年人啊啊aa在线观看| 亚洲日韩精品无码专区网站| MM131亚洲国产美女久久| 九月婷婷亚洲综合在线| 亚洲成AⅤ人影院在线观看| 日批日出水久久亚洲精品tv| 国产91成人精品亚洲精品| 亚洲国产精品人人做人人爱| 亚洲国产午夜福利在线播放| 亚洲麻豆精品国偷自产在线91| 国产成人99久久亚洲综合精品 | 亚洲AV无码乱码在线观看性色扶 | 精品日韩亚洲AV无码一区二区三区 | 国产成人亚洲精品蜜芽影院| 成a人片亚洲日本久久| 亚洲国产精品无码久久青草| 亚洲国产午夜福利在线播放| 国产AⅤ无码专区亚洲AV| 亚洲av伊人久久综合密臀性色| 亚洲av日韩av天堂影片精品| 亚洲免费视频网站| 亚洲欧洲国产视频| 亚洲一区二区三区高清不卡| 日韩欧美亚洲国产精品字幕久久久| 在线视频亚洲一区| 国产性爱在线观看亚洲黄色一级片 | 久久亚洲国产精品五月天| 伊人久久综在合线亚洲2019| 亚洲免费观看网站| 亚洲欧好州第一的日产suv| 国产精品亚洲а∨天堂2021| 久久影视国产亚洲| 亚洲人成在线影院|