亞寵展、全球寵物產業風向標——亞洲寵物展覽會深度解析
999
2022-05-29
上一篇文章簡單學習了什么是數據,這次來看看什么是統計指標,進一步了解更多數據分析相關的基礎知識。
什么是統計指標
體現總體數量特征的概念和數值
根據數據分析的目的不同,統計指標也會變化
“
分析招聘數據的時候:技能、薪資、崗位年限
分析用戶轉化率:網站瀏覽量、著陸頁、跳失率
分析理財產品的時候:往期的業績、風險系數、年化收益
統計指標根據他體現的內容分為兩大類:總量指標,相對指標
總量指標
描述特定條件下的總規模、總水平或工作總量的指標
“
GDP、銷售總額、總人口數
相對指標
描述的是相對關系,而不是總體情況
是指兩個有聯系的現象數值相比得到的比率
“
比例:各數據 / 總比 %
比率:數據想:數據項
倍數:突出上升、增長幅度
環比增長率(短期): (本期數 - 上期數)/ 上期數 * 100 %
同比增長率(長期):(本期數 - 同期數)/ 同期數 * 100 %
注意:環比更注重短期的漲幅表現,同比更注重長期的漲幅表現
除了以上的兩大類外還有三個統計指標值得我們學習,分別是集中趨勢指標、離散趨勢指標、分布形態
統計指標:集中趨勢指標 - 平均指標
平均值
用一個數字顯示總體一般水平就為平均指標也叫集中趨勢指標,最常用的集中趨勢指標就是平均值
“
平均值 = 所有數據相加 / 數據的個數
在通常的數據處理中經常會出現異常的數據,比如數據特別大或特別小就會影響平均值,這樣得出的平均值具有一定的誤導性,平均值對于異常數并不敏感
“
我和馬大大的月薪平均過億...
正是因為這樣情況,所以還有一個指標 - 中位數,需要了解一下
中位數
中位數是指按順序排列后,居于中間位置的數
“
數據為奇數:位于(n+1)/ 2 位置的數為中位數
數據為偶數:位于最中間的兩位數相加 / 2 為中位數
這樣的數據更具有代表性
眾數
眾數是指出現次數最多的數值,反應的是局部特征、密集度
統計指標:離散趨勢指標
上面講完了集中趨勢指標,現在來了解下什么是離散趨勢指標
離散趨勢指標是體現內部差異度的指標,主要有三類:極差、平均查、標準差
極差
極差體現數據內部最大的差異情況
“
極差 = 最大值 - 最小值
但是極差不能體現數據內部真正的數據差異情況,體現數據內部真正的差異情況我們使用平均差
平均差
平均差體現的是一組數據與平均值差異的平均差異
“
平均差 = |每個數據項 - 均值|的總和 / 數據項個數
數據項與平均值的差距越大,數據越分散,反之越集中
不過這里需要注意,當一組數據中存在數據異常值的時候,就容易導致誤差,所以針對這種情況,就有了對離散值更敏感的標準差
標準差
標準差是相比與平均差更能代表離散程度的指標
“
標準差 = ((|每個數據項 - 均值|)平方的總和 / 數據項個數)開方
使用標準差能更直觀的了解差異程度,是我們最常用的離散指標
統計指標:分布形態
分布形態指的是圖表化呈現出來的形態
常見的形態有:左偏分布、右偏分布、正態分布
左偏分布:平均值是偏左的,眾數(也就是峰值)是偏右的
右偏分布:平均值是偏右的,眾數(也就是峰值)是偏左的
正態分布:平均值是居中的,眾數(也就是峰值)是居中的
異常值
上面在介紹各類指標的時候,一直都有提到一個會影響我們判斷的概念,就是異常值,那么怎么識別異常值呢?
異常值一般是指與平均值偏差極大或極小的值,也叫離群值
上面也同時提到了一般是指,這個判斷標準要取決于具體分析的業務對象
“
例如:周期性的產業,比如旅游行業是有淡旺季之分的,旺季的數據通常能達到淡季的兩倍以上,這樣的數據就不能視為異常值
識別異常值
一般的業務數據通過觀察異常值與整體數據的差距可以識別異常值
通常情況下我們采用的方法是通過計算與平均的倍數,異常值與平均值計算出來的倍數通常遠大于(小于)其他數據與平均值計算出來的倍數,這樣就可以簡單的識別出哪些數據項是異常值了。
至于如何處理異常值,一般要看具體的業務分析
異常值判定
1、對于錯誤記錄的異常值,直接修改為正常數據即可,例如將工資數據錯誤記錄為負數,我們直接修改即可
2、對于錯誤添加的異常值,直接刪除即可,例如在預處理時,將年齡數據混入了工資數據中,我們就可以直接刪除了
3、對于正確、真實的異常值,這個需要根據具體業務分析,需要判斷這個異常值是否反映特殊的事件。
“
例如,在基金行情的走勢圖中存在因為分紅導致的基金走勢波動大,如果我們是為了分析該基金的行情走勢,那么我們就不能處理這個異常值。如果我們分析數據是為了量化交易,那么就要修改調整這個異常值
還有就是對于周期性的數據,例如上面提到的旅游數據,對于這類數據我們是不做處理的
處理異常值
1、對于錯誤數據,我們可以填充空值、填充樣本平均值
2、對于正確、真實的數據,我們可以根據實際情況調整、數值 * 需要調整的比率
“
例如之前提供的例子中,當基金因為分紅導致當天下跌了 8%,對于這樣的數據,我們可以將之后的價格調整為 收盤價 *(1+0.08)
這次我們簡單了解了什么是統計指標,以及異常值的簡單處理,現在我們對數據分析的基礎知識已經有了比較好的認識了,那么是時候體系化的了解數據分析的整體流程,為之后數據分析工具的學習打下基礎了。
好了,今天的文章就到這里,我們下次再會~
上一篇文章簡單學習了什么是數據,這次來看看什么是統計指標,進一步了解更多數據分析相關的基礎知識。
什么是統計指標
體現總體數量特征的概念和數值
根據數據分析的目的不同,統計指標也會變化
分析招聘數據的時候:技能、薪資、崗位年限
分析用戶轉化率:網站瀏覽量、著陸頁、跳失率
分析理財產品的時候:往期的業績、風險系數、年化收益
統計指標根據他體現的內容分為兩大類:總量指標,相對指標
總量指標
描述特定條件下的總規模、總水平或工作總量的指標
GDP、銷售總額、總人口數
相對指標
描述的是相對關系,而不是總體情況
是指兩個有聯系的現象數值相比得到的比率
比例:各數據 / 總比 %
比率:數據想:數據項
倍數:突出上升、增長幅度
環比增長率(短期): (本期數 - 上期數)/ 上期數 * 100 %
同比增長率(長期):(本期數 - 同期數)/ 同期數 * 100 %
注意:環比更注重短期的漲幅表現,同比更注重長期的漲幅表現
除了以上的兩大類外還有三個統計指標值得我們學習,分別是集中趨勢指標、離散趨勢指標、分布形態
統計指標:集中趨勢指標 - 平均指標
用一個數字顯示總體一般水平就為平均指標也叫集中趨勢指標,最常用的集中趨勢指標就是平均值
平均值 = 所有數據相加 / 數據的個數
在通常的數據處理中經常會出現異常的數據,比如數據特別大或特別小就會影響平均值,這樣得出的平均值具有一定的誤導性,平均值對于異常數并不敏感
我和馬大大的月薪平均過億...
正是因為這樣情況,所以還有一個指標 - 中位數,需要了解一下
中位數是指按順序排列后,居于中間位置的數
數據為奇數:位于(n+1)/ 2 位置的數為中位數
數據為偶數:位于最中間的兩位數相加 / 2 為中位數
這樣的數據更具有代表性
眾數是指出現次數最多的數值,反應的是局部特征、密集度
統計指標:離散趨勢指標
上面講完了集中趨勢指標,現在來了解下什么是離散趨勢指標
離散趨勢指標是體現內部差異度的指標,主要有三類:極差、平均查、標準差
極差
極差體現數據內部最大的差異情況
極差 = 最大值 - 最小值
但是極差不能體現數據內部真正的數據差異情況,體現數據內部真正的差異情況我們使用平均差
平均差
平均差體現的是一組數據與平均值差異的平均差異
平均差 = |每個數據項 - 均值|的總和 / 數據項個數
數據項與平均值的差距越大,數據越分散,反之越集中
不過這里需要注意,當一組數據中存在數據異常值的時候,就容易導致誤差,所以針對這種情況,就有了對離散值更敏感的標準差
標準差
標準差是相比與平均差更能代表離散程度的指標
標準差 = ((|每個數據項 - 均值|)平方的總和 / 數據項個數)開方
使用標準差能更直觀的了解差異程度,是我們最常用的離散指標
統計指標:分布形態
分布形態指的是圖表化呈現出來的形態
常見的形態有:左偏分布、右偏分布、正態分布
左偏分布:平均值是偏左的,眾數(也就是峰值)是偏右的
右偏分布:平均值是偏右的,眾數(也就是峰值)是偏左的
正態分布:平均值是居中的,眾數(也就是峰值)是居中的
異常值
上面在介紹各類指標的時候,一直都有提到一個會影響我們判斷的概念,就是異常值,那么怎么識別異常值呢?
異常值一般是指與平均值偏差極大或極小的值,也叫離群值
上面也同時提到了一般是指,這個判斷標準要取決于具體分析的業務對象
例如:周期性的產業,比如旅游行業是有淡旺季之分的,旺季的數據通常能達到淡季的兩倍以上,這樣的數據就不能視為異常值
一般的業務數據通過觀察異常值與整體數據的差距可以識別異常值
通常情況下我們采用的方法是通過計算與平均的倍數,異常值與平均值計算出來的倍數通常遠大于(小于)其他數據與平均值計算出來的倍數,這樣就可以簡單的識別出哪些數據項是異常值了。
至于如何處理異常值,一般要看具體的業務分析
1、對于錯誤記錄的異常值,直接修改為正常數據即可,例如將工資數據錯誤記錄為負數,我們直接修改即可
2、對于錯誤添加的異常值,直接刪除即可,例如在預處理時,將年齡數據混入了工資數據中,我們就可以直接刪除了
3、對于正確、真實的異常值,這個需要根據具體業務分析,需要判斷這個異常值是否反映特殊的事件。
例如,在基金行情的走勢圖中存在因為分紅導致的基金走勢波動大,如果我們是為了分析該基金的行情走勢,那么我們就不能處理這個異常值。如果我們分析數據是為了量化交易,那么就要修改調整這個異常值
還有就是對于周期性的數據,例如上面提到的旅游數據,對于這類數據我們是不做處理的
1、對于錯誤數據,我們可以填充空值、填充樣本平均值
2、對于正確、真實的數據,我們可以根據實際情況調整、數值 * 需要調整的比率
例如之前提供的例子中,當基金因為分紅導致當天下跌了 8%,對于這樣的數據,我們可以將之后的價格調整為 收盤價 *(1+0.08)
這次我們簡單了解了什么是統計指標,以及異常值的簡單處理,現在我們對數據分析的基礎知識已經有了比較好的認識了,那么是時候體系化的了解數據分析的整體流程,為之后數據分析工具的學習打下基礎了。
好了,今天的文章就到這里,我們下次再會~
大數據 應用與數據集成平臺 ROMA Connect 數據挖掘
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。