MapReduce服務初體驗【玩轉華為云】
1、 概述
1.1、什么是MapReduce?
大數據是人類進入互聯網時代以來面臨的一個巨大問題:社會生產生活產生的數據量越來越大,數據種類越來越多,數據產生的速度越來越快。傳統的數據處理技術,比如說單機存儲,關系數據庫已經無法解決這些新的大數據問題。為解決以上大數據處理問題,Apache基金會推出了Hadoop大數據處理的開源解決方案。Hadoop是一個開源分布式計算平臺,可以充分利用集群的計算和存儲能力,完成海量數據的處理。企業自行部署Hadoop系統有成本高,周期長,難運維和不靈活等問題。
針對上述問題,華為云提供了大數據MapReduce服務(MRS),MRS是一個在華為云上部署和管理Hadoop系統的服務,一鍵即可部署Hadoop集群。MRS提供租戶完全可控的一站式企業級大數據集群云服務,完全兼容開源接口,結合華為云計算、存儲優勢及大數據行業經驗,為客戶提供高性能、低成本、靈活易用的全棧大數據平臺,輕松運行Hadoop、Spark、HBase、Kafka、Storm等大數據組件,并具備在后續根據業務需要進行定制開發的能力,幫助企業快速構建海量數據信息處理系統,并通過對海量信息數據實時與非實時的分析挖掘,發現全新價值點和企業商機。
1.2、應用場景
大數據在人們的生活中無處不在,在IoT、電子商務、金融、制造、醫療、能源和政府部門等行業均可以使用華為云MRS服務進行大數據處理。
1.2.1、海量數據分析場景
海量數據分析是現代大數據系統中的主要場景。通常企業會包含多種數據源,接入后需要對數據進行ETL(Extract-Transform-Load)處理形成模型化數據,以便提供給各個業務模塊進行分析梳理,這類業務通常有以下特點:
對執行實時性要求不高,作業執行時間在數十分鐘到小時級別。
數據量巨大。
數據來源和格式多種多樣。
數據處理通常由多個任務構成,對資源需要進行詳細規劃。
例如在環保行業中,可以將天氣數據存儲在OBS,定期轉儲到HDFS中進行批量分析,在1小時內MRS可以完成10TB的天氣數據分析。
環保行業海量數據分析場景
該場景下MRS的優勢如下所示。
低成本:利用OBS實現低成本存儲。
海量數據分析:利用Hive實現TB/PB級的數據分析。
可視化的導入導出工具:通過可視化導入導出工具Loader,將數據導出到DWS,完成BI分析。
1.2.2、海量數據存儲場景
用戶擁有大量結構化數據后,通常需要提供基于索引的準實時查詢能力,如車聯網場景下,根據汽車編號查詢汽車維護信息,存儲時,汽車信息會基于汽車編號進行索引,以實現該場景下的秒級響應。通常這類數據量比較龐大,用戶可能保存1至3年的數據。
例如在車聯網行業,某車企將數據儲存在HBase中,以支持PB級別的數據存儲和毫秒級的數據詳單查詢。
車聯網行業海量數據存儲場景
該場景下MRS的優勢如下所示。
實時:利用Kafka實現海量汽車的消息實時接入。
海量數據存儲:利用HBase實現海量數據存儲,并實現毫秒級數據查詢。
分布式數據查詢:利用Spark實現海量數據的分析查詢。
1.2.3、實時數據處理
實時數據處理通常用于異常檢測、欺詐識別、基于規則告警、業務流程監控等場景,在數據輸入系統的過程中,對數據進行處理。
例如在梯聯網行業,智能電梯的數據,實時傳入到MRS的流式集群中進行實時告警。
梯聯網行業低時延流式處理場景
該場景下MRS的優勢如下所示。
實時數據采集:利用Flume實現實時數據采集,并提供豐富的采集和存儲連接方式。
海量的數據源接入:利用Kafka實現萬級別的電梯數據的實時接入。
2、操作步驟
詳細體驗過程如下:
2.1、登錄實驗環境
2.2、購買MapReduce服務
登錄華為云完成后點擊“控制臺”->“服務列表”->“大數據”->“MapReduce服務MRS”進入MRS控制臺,如下圖所示:
點擊右上角“購買集群”,進入購買集群頁面。請選擇“自定義購買”頁面。按照如下信息配置集群基本信息:【區域】:華北-北京四【集群名稱】:自定義名稱,本實驗手冊以“mrs-hcia”為例【集群版本】:MRS 1.9.2【集群類型】:混合集群;
【分析組件】:全選
【流式組件】:全選
元數據:本地元數據完成后單擊“下一步”。硬件配置如下:【計費模式】:按需計費【可用區】:默認【虛擬私有云】:點擊“查看虛擬私有云”,進入虛擬私有云界面,點擊“創建虛擬私有云”,所有參數默認,點擊“立即創建”即可。回到購買集群頁面,點擊刷新按鈕,即可選中創建的虛擬私有云。【子網】:虛擬私有云創建完成后子網自動創建并選中【安全組】:自動創建【彈性公網IP】:暫不綁定
直接選用默認設置,選擇“立即創建”。
此時選擇創建的私有云,選擇子網,企業項目。
修改分析core節點配置
修改流式core節點配置。
在高級配置中,設置admin和root帳號密碼。
以上操作順利完成后,出現如下成功創建提示。
此時可看到集群狀態為創建中。
2.3、購買彈性公網IP
進入創建的集群節點,
找到集群的master節點
點擊后,選擇查看公網ip
選擇購買公網IP
創建后,會出現二個公網IP地址。
2.4、綁定彈性IP
瀏覽器切回到彈性云服務器的管理控制臺頁面。點擊“綁定彈性公網IP”,網卡默認,勾選選擇一個IP,點擊“確定”。
2.5、修改安全組
修改云主機安全組;
進入虛擬私有云管理界面后,依次單擊左側 “訪問控制”->“安全組”,進入安全組管理界面后,點擊以mrs開頭的安全組。
放通所有策略。
2.6、訪問集群的管理頁面
切換瀏覽器至“mrs-hcia”集群詳情頁面,點擊“概覽”->“IAM用戶同步”,點擊同步,然后點擊“前往 Manager”,
出現如下界面,并輸入前面設置的密碼信息。
點擊“登錄”,即可進入MRS Manager頁面。
2.7、利用MapReduce做單詞統計
切回到桌面雙擊“Xfce終端”打開Terminal輸入執行以下命令下載實驗數據。
wget https://sandbox-experiment-resource.obs.cn-north-1.myhuaweicloud.com/mapreduce/wordcount
下載成功后界面如下:
下載wordcount jar包
2.8、將數據和代碼上傳到OBS
在瀏覽器點擊“控制臺”->"服務列表" -> "存儲" -> "對象存儲服務",進入到對象存儲服務頁面,如下圖所示:
在obs管理頁面點擊“創建桶”按鈕創建一個OBS桶。參數配置如下圖所示:【區域】:華北-北京四【數據冗余存儲策略】:單AZ存儲【桶名稱】:自定義【存儲類別】:標準存儲【桶策略】:私有【默認加密】:關閉【歸檔數據直讀】:關閉【標簽】:默認
自定義桶名,選擇單AZ;
此時會提示創建成功。
創建完成后點擊桶名稱進入對象存儲服務,點擊左側欄"對象",進入到對象管理頁面,再點擊“新建文件夾”創建一個名為“input”的文件夾,如下圖所示:
同時將之前下載的文件上傳至桶中。
2.9、提交mapreduce作業,進行單詞統計
集群管理頁面,選擇“作業管理”
填寫相關信息。
2.10、使用hdfs命令行客戶端查詢計算結果
在MRS Manager頁面的地址欄,復制彈性IP地址,如下圖所示
雙擊“Xfce終端”打開Terminal,通過如下步驟,登錄彈性服務器:操作說明:①輸入ssh root@EIP;②用復制的彈性IP替換命令中的EIP,回車執行;③接受秘鑰輸入“yes”,回車執行;④輸入密碼(創建集群時設置的root密碼),回車執行。注意:輸入密碼時,命令行窗口不會顯示密碼,輸完之后直接回車即可連接成功,如下圖所示:
根據提示輸入相應的密碼信息。
登錄成功后,執行以下命令查看計算結果。
source /opt/client/bigdata_env && hdfs dfs -cat /user/wordcount/*
執行成功如下圖所示:
由以上可知集群工作狀態正常。
3、你覺得這項能力會給你帶來哪些幫助:
熟悉了如何開通MapReduce服務;
了解了MapReduce分析組件的各項功能及用途;如Hue組件,可提供hadoop UI能力,能讓用戶通過瀏覽器分析處理Hadoop集群數據;Spark組件,具有快速、通用的大數據處理引擎;
熟悉了如何在華為云平臺創建私有云;
熟悉了如何通過公網管理MapReduce集群主機;
熟悉了MapReduce Manager管理功能,管理功能很全面,方便用戶進行日常運維。主要包括針對集群主機健康檢查、各項MRS服務的健康狀態、服務管理、主機管理、租戶管理、告警管理、審計管理,同時集群中磁盤占用率、磁盤讀寫速率均會呈現出來,方便用戶進行管理。
MapReduce操作界面簡潔、實際操作方便,很易上手。
4、你所遇到的問題是:
在開通MapReduce服務時集群存在幾個版本,分別有什么區別?應用場景有什么不一樣嗎?
在開通MapReduce服務時集群類型有分析集群、流式集群、混合集群,這三者有何不同之處,用戶在購買時該如何進行選擇?
在集群節點中,Master、分析Core、流式Core三個節點用途分別是什么?針對不同業務場景,實例數量有什么比例關系嗎?
在創建MapReduce時花費時間稍微有點長(15分鐘左右);是和選擇的節點配置有關系嗎?如果配置選高些,創建速度是否會快些?
5、結尾
實驗鏈接如下,感興趣的同學可以進行實際操作。
https://lab.huaweicloud.com/testdetail_376?ticket=ST-1274995-ed41wO324XxCRZwyAJDdceVC-sso
MapReduce MapReduce服務 大數據
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。