什么數(shù)據(jù)科學?數(shù)據(jù)科學初學者指南

      網(wǎng)友投稿 1009 2022-05-30

      隨著世界進入大數(shù)據(jù)時代,對其存儲的需求也在增長。直到 2010 年,這是企業(yè)行業(yè)面臨的主要挑戰(zhàn)和關注點。主要重點是構建存儲數(shù)據(jù)的框架和解決方案。現(xiàn)在當 Hadoop 等框架成功解決了存儲問題后,重點就轉移到了這些數(shù)據(jù)的處理上。數(shù)據(jù)科學是這里的秘訣。你在好萊塢科幻電影中看到的所有想法實際上都可以通過數(shù)據(jù)科學變成現(xiàn)實。數(shù)據(jù)科學是人工智能的未來。因此,了解什么是數(shù)據(jù)科學以及它如何為您的業(yè)務增加價值非常重要。

      在本博客中,我將介紹以下主題。

      什么是數(shù)據(jù)科學?

      為什么是數(shù)據(jù)科學?

      誰是數(shù)據(jù)科學家?

      數(shù)據(jù)科學家做什么的?

      它與商業(yè)智能 (BI) 和數(shù)據(jù)科學有何不同?

      借助用例了解數(shù)據(jù)科學的生命周期

      讀完這篇博文,您將能夠了解什么是數(shù)據(jù)科學,以及它在從我們周圍復雜而龐大的數(shù)據(jù)集中提取有意義的見解方面的作用。?要獲得有關數(shù)據(jù)科學的深入知識,您可以通過 Edureka 的Python認證培訓注冊實時數(shù)據(jù)科學,并提供 24/7 支持和終身訪問。

      什么是數(shù)據(jù)科學?

      數(shù)據(jù)科學融合了各種工具、算法和機器學習原理,旨在從原始數(shù)據(jù)中發(fā)現(xiàn)隱藏的模式。但這與統(tǒng)計學家多年來所做的有何不同?

      答案在于解釋和預測之間的區(qū)別。

      從上圖可以看出,數(shù)據(jù)分析師通常通過處理數(shù)據(jù)歷史來解釋正在發(fā)生的事情。另一方面,數(shù)據(jù)科學家不僅進行探索性分析以從中發(fā)現(xiàn)見解,而且還使用各種先進的機器學習算法來識別未來特定事件的發(fā)生。數(shù)據(jù)科學家會從多個角度查看數(shù)據(jù),有時是以前不知道的角度。

      因此,數(shù)據(jù)科學主要用于利用預測性因果分析、規(guī)范性分析(預測加決策科學)和機器學習做出決策和預測。

      預測因果分析——如果你想要一個可以預測特定事件未來可能性的模型,你需要應用預測因果分析。比方說,如果您以賒銷方式提供資金,那么客戶在未來按時還款的可能性是您關心的問題。在這里,您可以構建一個模型,該模型可以對客戶的付款歷史進行預測分析,以預測未來的付款是否會準時進行。

      規(guī)范性分析:如果您想要一個具有自行決策的智能并能夠使用動態(tài)參數(shù)對其進行修改的模型,那么您當然需要對其進行規(guī)范性分析。這個相對較新的領域就是提供建議。換句話說,它不僅預測而且建議一系列規(guī)定的行動和相關結果。

      最好的例子是我之前討論過的谷歌自動駕駛汽車。車輛收集的數(shù)據(jù)可用于訓練自動駕駛汽車。您可以在這些數(shù)據(jù)上運行算法,為其帶來智能。這將使您的汽車做出決定,例如何時轉彎、走哪條路、何時減速或加速。

      用于預測的機器學習——如果你有一家金融公司的交易數(shù)據(jù)并且需要建立一個模型來確定未來的趨勢,那么機器學習算法是最好的選擇。這屬于監(jiān)督學習的范式。之所以稱為有監(jiān)督,是因為您已經(jīng)擁有可以訓練機器的數(shù)據(jù)。例如,可以使用欺詐購買的歷史記錄來訓練欺詐檢測模型。

      用于模式發(fā)現(xiàn)的機器學習- 如果您沒有可以進行預測的參數(shù),那么您需要找出數(shù)據(jù)集中的隱藏模式才能做出有意義的預測。這只不過是無監(jiān)督模型,因為您沒有任何用于分組的預定義標簽。用于模式發(fā)現(xiàn)的最常用算法是聚類。

      假設您在一家電話公司工作,您需要通過在一個區(qū)域內(nèi)放置信號塔來建立網(wǎng)絡。然后,您可以使用聚類技術找到那些塔位置,以確保所有用戶都能接收到最佳信號強度。

      讓我們看看上述方法的比例對于數(shù)據(jù)分析和數(shù)據(jù)科學有何不同。如下圖所示,數(shù)據(jù)分析在一定程度上包括描述性分析和預測。另一方面,數(shù)據(jù)科學更多的是關于預測因果分析和機器學習。

      既然您知道數(shù)據(jù)科學究竟是什么,那么現(xiàn)在首先找出需要它的原因。

      為什么是數(shù)據(jù)科學?

      傳統(tǒng)上,我們擁有的數(shù)據(jù)大多是結構化的、規(guī)模較小的數(shù)據(jù),可以使用簡單的 BI 工具進行分析。與傳統(tǒng)系統(tǒng)中主要是結構化的數(shù)據(jù)不同,今天大多數(shù)數(shù)據(jù)是非結構化或半結構化的。讓我們看看下圖中的數(shù)據(jù)趨勢,它表明到 2020 年,超過 80% 的數(shù)據(jù)將是非結構化的。

      這些數(shù)據(jù)是從財務日志、文本文件、多媒體表格、傳感器和儀器等不同來源生成的。簡單的 BI 工具無法處理如此龐大的數(shù)量和種類的數(shù)據(jù)。這就是為什么我們需要更復雜、更先進的分析工具和算法來處理、分析和從中得出有意義的見解。

      這并不是數(shù)據(jù)科學變得如此流行的唯一原因。讓我們深入挖掘,看看數(shù)據(jù)科學是如何在各個領域中使用的。

      如果您可以從現(xiàn)有數(shù)據(jù)中了解客戶的確切需求,例如客戶過去的瀏覽歷史、購買歷史、年齡和收入,那如何?毫無疑問,您之前也擁有所有這些數(shù)據(jù),但現(xiàn)在有了海量數(shù)據(jù),您可以更有效地訓練模型并更準確地向客戶推薦產(chǎn)品。它會為您的組織帶來更多業(yè)務,這難道不是很神奇嗎?

      讓我們以不同的場景來理解數(shù)據(jù)科學在?決策中的作用。如果您的汽車有智能開車送您回家呢?自動駕駛汽車從傳感器收集實時數(shù)據(jù),包括雷達、攝像頭和激光,以創(chuàng)建其周圍環(huán)境的地圖。基于這些數(shù)據(jù),它利用先進的機器學習算法做出決定,例如何時加速、何時減速、何時超車、在哪里轉彎。

      讓我們看看數(shù)據(jù)科學如何用于預測分析。我們以天氣預報為例。可以收集和分析來自船舶、飛機、雷達、衛(wèi)星的數(shù)據(jù)以構建模型。這些模型不僅可以預測天氣,還有助于預測任何自然災害的發(fā)生。它將幫助您事先采取適當?shù)拇胧炀仍S多寶貴的生命。

      讓我們看一下下面的信息圖,看看數(shù)據(jù)科學正在創(chuàng)造印象的所有領域。

      誰是數(shù)據(jù)科學家?

      數(shù)據(jù)科學家有幾個可用的定義。簡而言之,數(shù)據(jù)科學家是實踐數(shù)據(jù)科學藝術的人。“數(shù)據(jù)科學家”這個詞?考慮到數(shù)據(jù)科學家從科學領域和應用程序(無論是統(tǒng)計學還是數(shù)學)中提取大量信息這一事實后創(chuàng)造的。

      數(shù)據(jù)科學家做什么的?

      數(shù)據(jù)科學家是那些憑借在某些科學學科方面的強大專業(yè)知識來解決復雜數(shù)據(jù)問題的人。他們處理與數(shù)學、統(tǒng)計學、計算機科學等相關的幾個元素(盡管他們可能不是所有這些領域的專家)。他們大量使用最新技術來尋找解決方案并得出對組織成長和發(fā)展至關重要的結論。與來自結構化和非結構化形式的原始數(shù)據(jù)相比,數(shù)據(jù)科學家以更有用的形式呈現(xiàn)數(shù)據(jù)。

      要了解有關數(shù)據(jù)科學家的更多信息,您可以參考這篇關于誰是數(shù)據(jù)科學家?

      更進一步,現(xiàn)在讓我們討論 BI。我相信您也可能聽說過商業(yè)智能 (BI)。數(shù)據(jù)科學經(jīng)常與 BI 混淆。我將陳述一些簡潔明了的兩者之間的對比將有助于您更好地理解。我們來看一下。

      Business Intelligence (BI) vs. Data Science

      商業(yè)智能 (BI) 基本上是分析以前的數(shù)據(jù),以發(fā)現(xiàn)后見之明和洞察力來描述業(yè)務趨勢。在這里,BI 使您能夠從外部和內(nèi)部來源獲取數(shù)據(jù)、準備數(shù)據(jù)、對其運行查詢并創(chuàng)建儀表板來回答諸如季度收入分析或業(yè)務問題之類的問題。BI 可以在不久的將來評估某些事件的影響。

      數(shù)據(jù)科學是一種更具前瞻性的方法,一種探索性的方法,側重于分析過去或當前的數(shù)據(jù)并預測未來的結果,以做出明智的決策。它回答關于“什么”和“如何”事件發(fā)生的開放式問題。

      讓我們來看看一些對比特征。

      (日志、云數(shù)據(jù)、SQL、NoSQL、文本)

      這就是關于什么是數(shù)據(jù)科學,現(xiàn)在讓我們了解數(shù)據(jù)科學的生命周期。

      數(shù)據(jù)科學項目中的一個常見錯誤是匆忙進行數(shù)據(jù)收集和分析,而沒有理解需求,甚至沒有正確地構建業(yè)務問題。因此,遵循數(shù)據(jù)科學整個生命周期的所有階段對您來說非常重要,以確保項目的順利運行。

      數(shù)據(jù)科學的生命周期

      以下是數(shù)據(jù)科學生命周期主要階段的簡要概述:

      階段 1 — 發(fā)現(xiàn):?在開始項目之前,了解各種規(guī)格、要求、優(yōu)先級和所需預算非常重要。您必須具備提出正確問題的能力。?在這里,您評估您是否擁有支持項目所需的人員、技術、時間和數(shù)據(jù)資源。?在此階段,您還需要構建業(yè)務問題并制定初始假設 (IH) 進行測試。

      階段 2 - 數(shù)據(jù)準備:?在此階段,您需要分析沙箱,您可以在其中執(zhí)行整個項目持續(xù)時間的分析。您需要在建模之前探索、預處理和調(diào)整數(shù)據(jù)。此外,您將執(zhí)行 ETLT(提取、轉換、加載和轉換)以將數(shù)據(jù)放入沙箱。讓我們看看下面的統(tǒng)計分析流程。

      您可以使用 R 進行數(shù)據(jù)清理、轉換和可視化。這將幫助您發(fā)現(xiàn)異常值并建立變量之間的關系。?清理并準備好數(shù)據(jù)后,就可以對其進行探索性分析了。讓我們看看如何實現(xiàn)這一目標。

      階段 3 — 模型規(guī)劃:?在這里,您將確定繪制變量之間關系的方法和技術。?這些關系將為您將在下一階段實施的算法奠定基礎。?您將使用各種統(tǒng)計公式和可視化工具應用探索性數(shù)據(jù)分析 (EDA)。

      讓我們來看看各種模型規(guī)劃工具。

      R擁有一套完整的建模能力,為構建解釋性模型提供了良好的環(huán)境。

      SQL 分析服務可以使用常見的數(shù)據(jù)挖掘功能和基本預測模型執(zhí)行數(shù)據(jù)庫內(nèi)分析。

      SAS/ACCESS??可用于訪問來自 Hadoop 的數(shù)據(jù),并用于創(chuàng)建可重復和可重用的模型流程圖。

      雖然市場上有很多工具,但 R 是最常用的工具。

      現(xiàn)在您已經(jīng)了解了數(shù)據(jù)的性質(zhì)并決定了要使用的算法。在下一階段,您將應用算法并建立模型。

      什么是數(shù)據(jù)科學?數(shù)據(jù)科學初學者指南

      第 4 階段 - 模型構建:在此階段,您將開發(fā)用于訓練和測試目的的數(shù)據(jù)集。在這里,您需要考慮您現(xiàn)有的工具是否足以運行模型,還是需要更強大的環(huán)境(如快速并行處理)。?您將分析各種學習技術(如分類、關聯(lián)和聚類)以構建模型。

      您可以通過以下工具實現(xiàn)模型構建。

      在此階段,您將交付最終報告、簡報、代碼和技術文檔。?此外,有時也會在實時生產(chǎn)環(huán)境中實施試點項目。這將使您在全面部署之前清楚地了解小規(guī)模的性能和其他相關限制。

      第 6 階段——交流結果:?現(xiàn)在重要的是評估您是否能夠實現(xiàn)您在第一階段計劃的目標。因此,在最后一個階段,您確定所有關鍵發(fā)現(xiàn),與利益相關者溝通并確定結果是否?根據(jù)第一階段制定的標準,項目的成功或失敗。

      現(xiàn)在,我將通過一個案例研究向您解釋上述各個階段。

      案例研究:糖尿病預防

      如果我們可以預測糖尿病的發(fā)生并提前采取適當?shù)拇胧﹣眍A防它會怎樣?

      在這個用例中,我們將利用我們之前討論的整個生命周期來預測糖尿病的發(fā)生。讓我們來看看各個步驟。

      第1步:

      首先,我們將根據(jù)第 1 階段中討論的患者病史收集數(shù)據(jù)。您可以參考下面的示例數(shù)據(jù)。

      如您所見,我們具有如下所述的各種屬性。

      屬性:

      npreg – 懷孕的次數(shù)

      葡萄糖 – 血漿葡萄糖濃度

      bp——血壓

      皮膚——三頭肌皮褶厚度

      bmi – 體重指數(shù)

      ped——糖尿病譜系函數(shù)

      年齡——年齡

      收入 – 收入

      第2步:

      現(xiàn)在,一旦我們有了數(shù)據(jù),我們就需要清理和準備數(shù)據(jù)以進行數(shù)據(jù)分析。

      這些數(shù)據(jù)有很多不一致的地方,如缺失值、空白列、突變值和不正確的數(shù)據(jù)格式需要清理。

      在這里,我們將數(shù)據(jù)組織到不同屬性下的單個表中 - 使其看起來更加結構化。

      讓我們看看下面的示例數(shù)據(jù)。

      這個數(shù)據(jù)有很多不一致之處。

      在npreg列中,“one”是用文字寫的,而它應該是像 1 這樣的數(shù)字形式。

      在bp列中,其中一個值是 6600,這是不可能的(至少對人類而言),?因為 bp 無法達到如此大的值。

      如您所見,收入列是空白的,在預測糖尿病方面也毫無意義。因此,把它放在這里是多余的,應該從表中刪除。

      因此,我們將通過刪除異常值、填充空值和規(guī)范化數(shù)據(jù)類型來清理和預處理這些數(shù)據(jù)。如果您還記得,這是我們的第二階段,即數(shù)據(jù)預處理。

      最后,我們得到如下所示的干凈數(shù)據(jù),可用于分析。

      第 3 步:

      現(xiàn)在讓我們做一些分析,正如前面在第 3 階段中所討論的那樣。

      首先,我們將數(shù)據(jù)加載到分析沙箱中,并對其應用各種統(tǒng)計函數(shù)。例如,R 具有像describe這樣的函數(shù),它為我們提供了缺失值和唯一值的數(shù)量。我們還可以使用匯總函數(shù),該函數(shù)將為我們提供統(tǒng)計信息,如均值、中值、范圍、最小值和最大值。

      然后,我們使用直方圖、折線圖、箱線圖等可視化技術來了解數(shù)據(jù)的分布情況。

      第四步:

      現(xiàn)在,基于從上一步得出的見解,最適合此類問題的是決策樹。讓我們看看如何?

      因為,我們已經(jīng)有了npreg、bmi等主要的分析屬性,所以我們將在這里使用監(jiān)督學習技術來構建?模型。

      此外,我們特別使用了決策樹,因為它一次性考慮了所有屬性,例如具有線性關系的屬性以及具有非線性關系的屬性。在我們的例子中,我們有npreg和age之間的線性關系,而npreg和ped之間有非線性關系。

      決策樹模型也非常健壯,因為我們可以使用不同的屬性組合來制作各種樹,然后最終以最高效率實現(xiàn)。

      讓我們看看我們的決策樹。

      在這里,最重要的參數(shù)是葡萄糖水平,因此它是我們的根節(jié)點。現(xiàn)在,當前節(jié)點及其值確定要采用的下一個重要參數(shù)。它一直持續(xù)到我們得到pos或neg的結果。Pos 表示患糖尿病的傾向為正,neg 表示患糖尿病的傾向為負。

      如果您想了解有關決策樹實現(xiàn)的更多信息,請參閱此博客How To Create A Perfect Decision Tree

      第 5 步:

      在這個階段,我們將運行一個小型試點項目來檢查我們的結果是否合適。如果有的話,我們還將尋找性能限制。如果結果不準確,那么我們需要重新規(guī)劃和重建模型。

      第 6 步:

      成功執(zhí)行項目后,我們將共享輸出以進行全面部署。

      成為數(shù)據(jù)科學家說起來容易做起來難。那么,讓我們看看成為數(shù)據(jù)科學家所需的一切。 ?數(shù)據(jù)科學家基本上需要來自三個主要領域的技能?,如下所示。

      如上圖所示,您需要掌握各種硬技能和軟技能。您需要擅長統(tǒng)計和數(shù)學才能分析和可視化數(shù)據(jù)。毋庸置疑,機器學習構成了數(shù)據(jù)科學的核心,需要你擅長它。此外,您需要對您所從事的領域有深入的了解,才能清楚地了解業(yè)務問題。您的任務并沒有就此結束。您應該能夠實現(xiàn)需要良好編碼技能的各種算法。最后,一旦您做出了某些關鍵決策,就必須將它們交付給利益相關者。所以,良好的溝通?肯定會為您的技能增加布朗尼點數(shù)。

      我強烈建議您觀看這個數(shù)據(jù)科學視頻教程,它解釋了什么是數(shù)據(jù)科學以及我們在博客中討論的所有內(nèi)容。來吧,享受視頻,告訴我你的想法。

      什么是數(shù)據(jù)科學?數(shù)據(jù)科學課程——初學者的數(shù)據(jù)科學教程 |?埃德瑞卡

      此 Edureka 數(shù)據(jù)科學課程視頻將帶您了解數(shù)據(jù)科學的需求、什么是數(shù)據(jù)科學、數(shù)據(jù)科學業(yè)務用例、BI 與數(shù)據(jù)科學、數(shù)據(jù)分析工具、數(shù)據(jù)科學生命周期以及演示。

      最后,說未來屬于數(shù)據(jù)科學家并沒有錯。預計到 2018 年底,大約需要 100 萬名數(shù)據(jù)科學家。越來越多的數(shù)據(jù)將為推動關鍵業(yè)務決策提供機會。它很快就會改變我們看待充斥著周圍數(shù)據(jù)的世界的方式。因此,數(shù)據(jù)科學家應該具有高度的技能和積極性來解決最復雜的問題。

      數(shù)據(jù)挖掘 機器學習

      版權聲明:本文內(nèi)容由網(wǎng)絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權內(nèi)容。

      上一篇:操作系統(tǒng)實驗:實現(xiàn)銀行家算法
      下一篇:Windows10配置運行Hive(非WSL模式)
      相關文章
      亚洲欧洲国产日韩精品| 久久精品亚洲综合| 777亚洲精品乱码久久久久久| 亚洲精品无码不卡在线播放HE | 亚洲黄色网址大全| 久久综合九九亚洲一区| 国产AV无码专区亚洲A∨毛片| 亚洲精品夜夜夜妓女网| 亚洲大尺度无码无码专区| 国产午夜亚洲精品午夜鲁丝片| 亚洲精品老司机在线观看| 亚洲av高清在线观看一区二区 | 久久精品国产亚洲av天美18| 亚洲AV一区二区三区四区| 亚洲一卡2卡3卡4卡5卡6卡| 亚洲愉拍一区二区三区| 亚洲精品9999久久久久无码| 最新亚洲卡一卡二卡三新区| 亚洲欧洲日产国码久在线| 亚洲爆乳成av人在线视菜奈实| 欧洲亚洲国产精华液| 亚洲欧美日韩一区二区三区| 亚洲人AV在线无码影院观看| 亚洲国产高清国产拍精品| 麻豆亚洲AV成人无码久久精品 | 亚洲香蕉网久久综合影视| 亚洲国产精品一区第二页| 亚洲国产综合专区电影在线| 99亚洲精品高清一二区| 亚洲激情电影在线| 亚洲一欧洲中文字幕在线| 亚洲AV成人一区二区三区在线看| 亚洲日本VA午夜在线影院| 欧洲亚洲国产精华液| 亚洲午夜爱爱香蕉片| 精品亚洲永久免费精品| 精品无码一区二区三区亚洲桃色| 亚洲国产高清视频在线观看| 亚洲砖码砖专无区2023 | 亚洲国产精品嫩草影院| 亚洲国产综合精品中文字幕|