人人都會數據分析 | 了解統計指標與異常值的簡單處理

      網友投稿 999 2022-05-29

      上一篇文章簡單學習了什么是數據,這次來看看什么是統計指標,進一步了解更多數據分析相關的基礎知識。

      什么是統計指標

      體現總體數量特征的概念和數值

      根據數據分析的目的不同,統計指標也會變化

      分析招聘數據的時候:技能、薪資、崗位年限

      分析用戶轉化率:網站瀏覽量、著陸頁、跳失率

      分析理財產品的時候:往期的業績、風險系數、年化收益

      統計指標根據他體現的內容分為兩大類:總量指標,相對指標

      總量指標

      描述特定條件下的總規模、總水平或工作總量的指標

      GDP、銷售總額、總人口數

      相對指標

      描述的是相對關系,而不是總體情況

      是指兩個有聯系的現象數值相比得到的比率

      比例:各數據 / 總比 %

      比率:數據想:數據項

      倍數:突出上升、增長幅度

      環比增長率(短期): (本期數 - 上期數)/ 上期數 * 100 %

      同比增長率(長期):(本期數 - 同期數)/ 同期數 * 100 %

      人人都會數據分析 | 了解統計指標與異常值的簡單處理

      注意:環比更注重短期的漲幅表現,同比更注重長期的漲幅表現

      除了以上的兩大類外還有三個統計指標值得我們學習,分別是集中趨勢指標、離散趨勢指標、分布形態

      統計指標:集中趨勢指標 - 平均指標

      平均值

      用一個數字顯示總體一般水平就為平均指標也叫集中趨勢指標,最常用的集中趨勢指標就是平均值

      平均值 = 所有數據相加 / 數據的個數

      在通常的數據處理中經常會出現異常的數據,比如數據特別大或特別小就會影響平均值,這樣得出的平均值具有一定的誤導性,平均值對于異常數并不敏感

      我和馬大大的月薪平均過億...

      正是因為這樣情況,所以還有一個指標 - 中位數,需要了解一下

      中位數

      中位數是指按順序排列后,居于中間位置的數

      數據為奇數:位于(n+1)/ 2 位置的數為中位數

      數據為偶數:位于最中間的兩位數相加 / 2 為中位數

      這樣的數據更具有代表性

      眾數

      眾數是指出現次數最多的數值,反應的是局部特征、密集度

      統計指標:離散趨勢指標

      上面講完了集中趨勢指標,現在來了解下什么是離散趨勢指標

      離散趨勢指標是體現內部差異度的指標,主要有三類:極差、平均查、標準差

      極差

      極差體現數據內部最大的差異情況

      極差 = 最大值 - 最小值

      但是極差不能體現數據內部真正的數據差異情況,體現數據內部真正的差異情況我們使用平均差

      平均差

      平均差體現的是一組數據與平均值差異的平均差異

      平均差 = |每個數據項 - 均值|的總和 / 數據項個數

      數據項與平均值的差距越大,數據越分散,反之越集中

      不過這里需要注意,當一組數據中存在數據異常值的時候,就容易導致誤差,所以針對這種情況,就有了對離散值更敏感的標準差

      標準差

      標準差是相比與平均差更能代表離散程度的指標

      標準差 = ((|每個數據項 - 均值|)平方的總和 / 數據項個數)開方

      使用標準差能更直觀的了解差異程度,是我們最常用的離散指標

      統計指標:分布形態

      分布形態指的是圖表化呈現出來的形態

      常見的形態有:左偏分布、右偏分布、正態分布

      左偏分布:平均值是偏左的,眾數(也就是峰值)是偏右的

      右偏分布:平均值是偏右的,眾數(也就是峰值)是偏左的

      正態分布:平均值是居中的,眾數(也就是峰值)是居中的

      異常值

      上面在介紹各類指標的時候,一直都有提到一個會影響我們判斷的概念,就是異常值,那么怎么識別異常值呢?

      異常值一般是指與平均值偏差極大或極小的值,也叫離群值

      上面也同時提到了一般是指,這個判斷標準要取決于具體分析的業務對象

      例如:周期性的產業,比如旅游行業是有淡旺季之分的,旺季的數據通常能達到淡季的兩倍以上,這樣的數據就不能視為異常值

      識別異常值

      一般的業務數據通過觀察異常值與整體數據的差距可以識別異常值

      通常情況下我們采用的方法是通過計算與平均的倍數,異常值與平均值計算出來的倍數通常遠大于(小于)其他數據與平均值計算出來的倍數,這樣就可以簡單的識別出哪些數據項是異常值了。

      至于如何處理異常值,一般要看具體的業務分析

      異常值判定

      1、對于錯誤記錄的異常值,直接修改為正常數據即可,例如將工資數據錯誤記錄為負數,我們直接修改即可

      2、對于錯誤添加的異常值,直接刪除即可,例如在預處理時,將年齡數據混入了工資數據中,我們就可以直接刪除了

      3、對于正確、真實的異常值,這個需要根據具體業務分析,需要判斷這個異常值是否反映特殊的事件。

      例如,在基金行情的走勢圖中存在因為分紅導致的基金走勢波動大,如果我們是為了分析該基金的行情走勢,那么我們就不能處理這個異常值。如果我們分析數據是為了量化交易,那么就要修改調整這個異常值

      還有就是對于周期性的數據,例如上面提到的旅游數據,對于這類數據我們是不做處理的

      處理異常值

      1、對于錯誤數據,我們可以填充空值、填充樣本平均值

      2、對于正確、真實的數據,我們可以根據實際情況調整、數值 * 需要調整的比率

      例如之前提供的例子中,當基金因為分紅導致當天下跌了 8%,對于這樣的數據,我們可以將之后的價格調整為 收盤價 *(1+0.08)

      這次我們簡單了解了什么是統計指標,以及異常值的簡單處理,現在我們對數據分析的基礎知識已經有了比較好的認識了,那么是時候體系化的了解數據分析的整體流程,為之后數據分析工具的學習打下基礎了。

      好了,今天的文章就到這里,我們下次再會~

      上一篇文章簡單學習了什么是數據,這次來看看什么是統計指標,進一步了解更多數據分析相關的基礎知識。

      什么是統計指標

      體現總體數量特征的概念和數值

      根據數據分析的目的不同,統計指標也會變化

      分析招聘數據的時候:技能、薪資、崗位年限

      分析用戶轉化率:網站瀏覽量、著陸頁、跳失率

      分析理財產品的時候:往期的業績、風險系數、年化收益

      統計指標根據他體現的內容分為兩大類:總量指標,相對指標

      總量指標

      描述特定條件下的總規模、總水平或工作總量的指標

      GDP、銷售總額、總人口數

      相對指標

      描述的是相對關系,而不是總體情況

      是指兩個有聯系的現象數值相比得到的比率

      比例:各數據 / 總比 %

      比率:數據想:數據項

      倍數:突出上升、增長幅度

      環比增長率(短期): (本期數 - 上期數)/ 上期數 * 100 %

      同比增長率(長期):(本期數 - 同期數)/ 同期數 * 100 %

      注意:環比更注重短期的漲幅表現,同比更注重長期的漲幅表現

      除了以上的兩大類外還有三個統計指標值得我們學習,分別是集中趨勢指標、離散趨勢指標、分布形態

      統計指標:集中趨勢指標 - 平均指標

      用一個數字顯示總體一般水平就為平均指標也叫集中趨勢指標,最常用的集中趨勢指標就是平均值

      平均值 = 所有數據相加 / 數據的個數

      在通常的數據處理中經常會出現異常的數據,比如數據特別大或特別小就會影響平均值,這樣得出的平均值具有一定的誤導性,平均值對于異常數并不敏感

      我和馬大大的月薪平均過億...

      正是因為這樣情況,所以還有一個指標 - 中位數,需要了解一下

      中位數是指按順序排列后,居于中間位置的數

      數據為奇數:位于(n+1)/ 2 位置的數為中位數

      數據為偶數:位于最中間的兩位數相加 / 2 為中位數

      這樣的數據更具有代表性

      眾數是指出現次數最多的數值,反應的是局部特征、密集度

      統計指標:離散趨勢指標

      上面講完了集中趨勢指標,現在來了解下什么是離散趨勢指標

      離散趨勢指標是體現內部差異度的指標,主要有三類:極差、平均查、標準差

      極差

      極差體現數據內部最大的差異情況

      極差 = 最大值 - 最小值

      但是極差不能體現數據內部真正的數據差異情況,體現數據內部真正的差異情況我們使用平均差

      平均差

      平均差體現的是一組數據與平均值差異的平均差異

      平均差 = |每個數據項 - 均值|的總和 / 數據項個數

      數據項與平均值的差距越大,數據越分散,反之越集中

      不過這里需要注意,當一組數據中存在數據異常值的時候,就容易導致誤差,所以針對這種情況,就有了對離散值更敏感的標準差

      標準差

      標準差是相比與平均差更能代表離散程度的指標

      標準差 = ((|每個數據項 - 均值|)平方的總和 / 數據項個數)開方

      使用標準差能更直觀的了解差異程度,是我們最常用的離散指標

      統計指標:分布形態

      分布形態指的是圖表化呈現出來的形態

      常見的形態有:左偏分布、右偏分布、正態分布

      左偏分布:平均值是偏左的,眾數(也就是峰值)是偏右的

      右偏分布:平均值是偏右的,眾數(也就是峰值)是偏左的

      正態分布:平均值是居中的,眾數(也就是峰值)是居中的

      異常值

      上面在介紹各類指標的時候,一直都有提到一個會影響我們判斷的概念,就是異常值,那么怎么識別異常值呢?

      異常值一般是指與平均值偏差極大或極小的值,也叫離群值

      上面也同時提到了一般是指,這個判斷標準要取決于具體分析的業務對象

      例如:周期性的產業,比如旅游行業是有淡旺季之分的,旺季的數據通常能達到淡季的兩倍以上,這樣的數據就不能視為異常值

      一般的業務數據通過觀察異常值與整體數據的差距可以識別異常值

      通常情況下我們采用的方法是通過計算與平均的倍數,異常值與平均值計算出來的倍數通常遠大于(小于)其他數據與平均值計算出來的倍數,這樣就可以簡單的識別出哪些數據項是異常值了。

      至于如何處理異常值,一般要看具體的業務分析

      1、對于錯誤記錄的異常值,直接修改為正常數據即可,例如將工資數據錯誤記錄為負數,我們直接修改即可

      2、對于錯誤添加的異常值,直接刪除即可,例如在預處理時,將年齡數據混入了工資數據中,我們就可以直接刪除了

      3、對于正確、真實的異常值,這個需要根據具體業務分析,需要判斷這個異常值是否反映特殊的事件。

      例如,在基金行情的走勢圖中存在因為分紅導致的基金走勢波動大,如果我們是為了分析該基金的行情走勢,那么我們就不能處理這個異常值。如果我們分析數據是為了量化交易,那么就要修改調整這個異常值

      還有就是對于周期性的數據,例如上面提到的旅游數據,對于這類數據我們是不做處理的

      1、對于錯誤數據,我們可以填充空值、填充樣本平均值

      2、對于正確、真實的數據,我們可以根據實際情況調整、數值 * 需要調整的比率

      例如之前提供的例子中,當基金因為分紅導致當天下跌了 8%,對于這樣的數據,我們可以將之后的價格調整為 收盤價 *(1+0.08)

      這次我們簡單了解了什么是統計指標,以及異常值的簡單處理,現在我們對數據分析的基礎知識已經有了比較好的認識了,那么是時候體系化的了解數據分析的整體流程,為之后數據分析工具的學習打下基礎了。

      好了,今天的文章就到這里,我們下次再會~

      大數據 應用與數據集成平臺 ROMA Connect 數據挖掘

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:一文讀懂GaussDB(openGauss) 的六大關鍵技術特性
      下一篇:企業級發布訂閱(pub-sub)消息系統-Apache Pulsar
      相關文章
      丁香亚洲综合五月天婷婷| 国产精品亚洲精品青青青| 亚洲免费综合色在线视频| 亚洲人成影院77777| 亚洲午夜精品在线| 亚洲成a人片在线网站| 亚洲无砖砖区免费| 亚洲大尺码专区影院| 亚洲性一级理论片在线观看| 亚洲天堂中文字幕| 亚洲高清资源在线观看| 18gay台湾男同亚洲男同| 亚洲AV成人一区二区三区AV| 久久青青草原亚洲AV无码麻豆| 亚洲αv久久久噜噜噜噜噜| 久久精品国产精品亚洲色婷婷| 亚洲av日韩av天堂影片精品| 亚洲av福利无码无一区二区 | 亚洲精品tv久久久久久久久| 亚洲伊人色欲综合网| 国产成人亚洲综合无码精品| 亚洲AV中文无码字幕色三| 亚洲国产精品福利片在线观看 | 亚洲午夜无码久久| 亚洲爆乳精品无码一区二区| 噜噜综合亚洲AV中文无码| 国产精品亚洲а∨无码播放麻豆| 亚洲成a人片在线观看日本麻豆| 亚洲一区无码精品色| 国产亚洲美女精品久久久久狼 | 苍井空亚洲精品AA片在线播放| 亚洲第一区精品日韩在线播放| 久久亚洲av无码精品浪潮| 中文亚洲AV片不卡在线观看| 亚洲今日精彩视频| 久久亚洲国产成人精品性色| 色婷五月综激情亚洲综合| 亚洲av日韩专区在线观看| 亚洲日本一区二区三区在线不卡| 亚洲中文久久精品无码| 亚洲国产天堂久久综合网站|