無法插入表格
1126
2025-04-01
無論是產品還是運營,數據分析都是其日常工作中不可忽略的一個板塊,但是新手小白該從哪個點切入進行數據分析,數據分析的整體流程框架又該如何搭建呢?
首先,需要先確定數據分析框架的大綱,將業務數據分析分成五大步驟,分別是:數據生成、數據處理、數據建模、數據分析和數據應用。
用戶從進入網站開始,每一步的行為操作都會生成對應的后臺數據,我們可以將這些數據大體分為三類:用戶數據、行為數據和業務數據。用戶數據和行為數據可以直接從網站后臺獲取,業務數據則一般需要公司內部搭建。
以支付業務為例,用戶在完成支付后,會形成兩張核心表格:訂單表和交易表,一筆訂單可能對應多筆交易(選擇不同的訂單支付方式)。
后臺獲取的數據一般都是非結構化數據,因此在進行分析之前需要將數據通過清洗轉換、空值處理等轉化為結構化數據,為后續的數據分析打下良好的基礎。
系統可以通過系統自帶的中間表、數據轉換等功能協助用戶實現大部分數據處理的需求,相當于一個輕量級的ETL工具,因此無需再通過其他第三方工具進行數據處理。
所有數據進到數倉以后,需要根據實際待分析的業務數據進行數據建模。
為什么要進行數據建模?
那是因為在龐大的數據倉庫中,數據一般都會按照其涉及的業務,儲存在不同的數據表中,例如用戶數據存儲在用戶基本信息表,用戶在網站的操作存儲在用戶行為表,訂單數據存儲在日銷售訂單表等。但涉及數據分析時,需要提取所有的數據進行合并分析,因此需要將數據通過建模,關聯起來,將多個表的數據連接起來,一同進行數據分析。
除了添加表與表之間的關聯關系,我們還需要對數據字段進行一個基礎分類,添加屬性和度量字段:
屬性(Attribute)
度量(Measures)
在統計學定義上,數據可以分為離散型和連續型。在數據分析過程中,離散型對應屬性,用來代表有限數量的值,例如產品名稱、產品類別等;連續性對應度量,無法例舉變量值,例如銷售額、銷量等。
系統會自動將數據表的列名字段劃分成對應的屬性列和度量列。
有了維度和度量的概念后,我們需要在數據分析階段引入聚合概念。聚合,簡單來說就是將數據源中的多行數據按照一定的規則合并計算為一個數據。因為對于查看數據的人來說,他們往往會更關注數據的總體態勢。
系統預置了最常見的集中聚合規則,
如:
求和:sum(列名)
計數:count(列名)
計數去重:uniqe_count(列名)
求平均值:average(列名)
選擇對應的聚合方式,數據結果會按照其對應的維度自動進行聚合運算。
最后,可以將得到的結果按照可視化圖表或數據看板的方式進行展現,實時監控,尋找異常數據或成功的機會。
數據從用戶中來,通過一系列的數據沉淀、處理和分析找出機會點做決策再回到用戶中去,提升用戶體驗,帶動業務增長,此即為數據驅動業務。
本篇文章的重點是介紹了數據分析的大體流程框架以及每個步驟設計的功能點,但是如何搭建數據指標體系以及具體的指標案例等還沒有涉及。
數據分析需要學哪些
數據分析師是數據師Datician['det???n]的一種,指的是不同行業中,專門從事行業數據搜集、整理、分析,并依據數據做出行業研究、評估和預測的專業人員。
第一:統計學知識。這是很大一部分大數據分析師的短板。當然這里說的不是簡單的一些統計而已。而是包括均值、中位數、標準差、方差、概率、假設檢驗等等具有時間、空間、數據本身。差不多應該是理工科的高等數學的知識,甚至還高一點兒。要能夠建模,要不然你分析出來的結果離實際相差十萬八千里的話,估計要不了幾天,你就會被卷鋪蓋走人了。當然,做個一般的大數據分析師,就不會涉及到很深的高等數學知識了,但要做一個牛B的大數據分析師,還是要學習學習再學習。
第二:很多人想不到的,你還是把EXCEL玩熟悉吧。當然不需要掌握的高大全,也得要掌握常用的函數,比如重點包括但不限于sum,count,sumif,countif,find,if,left/right,時間轉換,透視表,各種圖表做法等之類的。如果數據量不算是特別大的話,Excel能夠解決很多問題。比如,篩選部分贓數據,排序,挑選滿足條件的數據等等。
第三:分析思維的練習。比如結構化思維、思維導圖、或百度腦圖、麥肯錫式分析,了解一些smart、5W2H、SWOT等等那就更好了。不一定要掌握多深多全,但一定要了解一些。
第四:數據庫知識。大數據大數據,就是數據量很多,Excel就解決不了這么大數據量的時候,就得使用數據庫。如果是關系型數據庫,比如Oracle、mysql、sqlserver等等,你還得要學習使用SQL語句,篩選排序,匯總等等。非關系型數據庫也得要學習,比如:Cassandra、Mongodb、CouchDB、Redis、 Riak、Membase、Neo4j 和 HBase等等,起碼常用的了解一兩個,比如Hbase,Mongodb,redis等。
第五:業務學習。其實對于大數據分析師來說,了解業務比了解數據更重要。對于行業業務是怎么走的對于數據的分析有著非常重要的作用,不了解業務,可能你分析的結果不是別人想要的。
第六:開發工具及環境。比如:Linux OS、Hadoop(存儲HDFS,計算Yarn)、Spark、或另外一些中間件。目前用得多的開發工具Java、python等等語言工具。
第一位:應用數學
應用數學,是利用數學方法解決實際問題的一門學科,在經濟金融、工程科技等領域都有應用。本專業主要學習數學和應用數學的基礎理論、基本方法,受到數學模型、計算機和數學軟件方面的基本訓練,具有較好的科學素養。
第二位:計算機相關專業
近年來企業招的數據分析師,其實大部分應該叫:數據程序員。基本上都是進公司跑數據的,不做啥“分析”,因此計算機相關專業會有優勢。畢竟寫代碼寫的多嗎。數據倉儲,算法這些就更依賴開發能力,這本來就是計算機專業的范疇。
第三位:市場營銷、企業管理專業
實際上,真要做分析的話,需要懂商業知識+有分析思路,這一點文科生會更擅長。而且市場營銷、企業管理等專業一定會學市場調查。
因此對于數據處理、數據分析的基本操作是了解的。未來走咨詢、數據運營、數據分析、市場研究、行業研究的路線是很OK的。
第四位:心理學、社會學
不要小看這兩個專業,這兩個專業對于數據的應用能力絕對遠遠超過上邊三個專業。知乎著名數據大V chenqin就是搞社會學的,那數據分析能力壓倒一大堆只會跑數的表哥。
心理學里提假設、設計實驗、采集數據、驗證假設的思路,就是數據分析的思路,一毛一樣。因此這兩個專業的數據部門領導還挺多的。
第五位:統計學
和應用數學相反,這是個被名字拖累的專業。人們往往懼怕數學,但一聽統計就覺得:好一般哦。是不是就是掰指頭數數的。
嚴重低估了統計學的專業性。其實統計學是很適合做數據相關工作的。學統計的同學們思路活躍一點哦。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。