大數據“復活”記
773
2025-04-02
今天來說說我做數據這些年的一些感悟和體會,希望能夠講的通俗易懂,化繁為簡,給剛入門的小伙伴一些幫助。
數據,是當今世界很重要也很值錢的東西,從哪里來,怎么處理,到哪里去,這是要弄清楚的最基本路線圖,本文分著3個部分來分別講解。
1.從哪里來
數據從哪里來的呢,從業務系統(網站瀏覽、、評論等交互數據)、app、小程序、郵件系統等等系統產生,存儲在關系型或菲關系新數據庫中,或者直接落地磁盤,等待被拖走,然后進行下一步處理。
目前數據接入的方式有很多,比如flume監控日志,sqoop離線從數據庫導數據到目的端,canal、dbz監控數據庫binlog獲取最新增刪改的實時數據等。
2.怎么處理
在數據領域,處理數據就是將業務數據按照規范進行格式化、統一化,利用現有的技術手段,進行數據加工轉換,變成我們想要的東西,然后進行數據分析、數據挖掘等,提供價值信息。
那么現在的java python均可作為數據處理的語言選擇,利用處理引擎mr、spark、flink進行批量并行處理,大數據的分而治之思想就是在大量數據處理的時候找到的。
大數據時代,如何從大量的數據中抽取出我們想要的價值數據,就需要分而治之的思想,并行處理,能夠大大利用現在廉價的機器資源,并且很重要的一點就是,如何進行數據篩選,如果在處理計算之前,過濾掉大部分數據,就會減少處理時間,提高數據響應度。
3.到哪里去
數據去哪里,就是我們如何利用這些規范化的數據,去分析、挖掘,找到我們想要的數據,想要的數據,如何展示,以圖表?文件?excel?方式呈現在需求方呢,這就是數據的去向。數據去向在數據倉庫中就是app或者數據集市層,對外以api、表、圖的形式對外提供數據服務。
那么為了更好地提供數據服務,我們應該做好數據處理才行,于是就有了數據模型,一個好的模型,可以在同一個業務范圍內,提供統一標準化的數據,也規范了統計口徑,對下游使用方來說,減少了不必要的口徑問題,也提供了好用的數據,這就是數據模型的作用,在數據處理階段的重要職責。
數據庫
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。