MapReduce服務初體驗玩轉華為云】

      網友投稿 759 2022-05-29

      1、 概述

      1.1、什么是MapReduce?

      大數據是人類進入互聯網時代以來面臨的一個巨大問題:社會生產生活產生的數據量越來越大,數據種類越來越多,數據產生的速度越來越快。傳統的數據處理技術,比如說單機存儲,關系數據庫已經無法解決這些新的大數據問題。為解決以上大數據處理問題,Apache基金會推出了Hadoop大數據處理的開源解決方案。Hadoop是一個開源分布式計算平臺,可以充分利用集群的計算和存儲能力,完成海量數據的處理。企業自行部署Hadoop系統有成本高,周期長,難運維和不靈活等問題。

      針對上述問題,華為云提供了大數據MapReduce服務(MRS),MRS是一個在華為云上部署和管理Hadoop系統的服務,一鍵即可部署Hadoop集群。MRS提供租戶完全可控的一站式企業級大數據集群云服務,完全兼容開源接口,結合華為云計算、存儲優勢及大數據行業經驗,為客戶提供高性能、低成本、靈活易用的全棧大數據平臺,輕松運行Hadoop、Spark、HBase、Kafka、Storm等大數據組件,并具備在后續根據業務需要進行定制開發的能力,幫助企業快速構建海量數據信息處理系統,并通過對海量信息數據實時與非實時的分析挖掘,發現全新價值點和企業商機。

      1.2、應用場景

      大數據在人們的生活中無處不在,在IoT、電子商務、金融、制造、醫療、能源和政府部門等行業均可以使用華為云MRS服務進行大數據處理。

      1.2.1、海量數據分析場景

      海量數據分析是現代大數據系統中的主要場景。通常企業會包含多種數據源,接入后需要對數據進行ETL(Extract-Transform-Load)處理形成模型化數據,以便提供給各個業務模塊進行分析梳理,這類業務通常有以下特點:

      對執行實時性要求不高,作業執行時間在數十分鐘到小時級別。

      數據量巨大。

      數據來源和格式多種多樣。

      數據處理通常由多個任務構成,對資源需要進行詳細規劃。

      例如在環保行業中,可以將天氣數據存儲在OBS,定期轉儲到HDFS中進行批量分析,在1小時內MRS可以完成10TB的天氣數據分析。

      環保行業海量數據分析場景

      該場景下MRS的優勢如下所示。

      低成本:利用OBS實現低成本存儲。

      海量數據分析:利用Hive實現TB/PB級的數據分析。

      可視化的導入導出工具:通過可視化導入導出工具Loader,將數據導出到DWS,完成BI分析。

      1.2.2、海量數據存儲場景

      用戶擁有大量結構化數據后,通常需要提供基于索引的準實時查詢能力,如車聯網場景下,根據汽車編號查詢汽車維護信息,存儲時,汽車信息會基于汽車編號進行索引,以實現該場景下的秒級響應。通常這類數據量比較龐大,用戶可能保存1至3年的數據。

      例如在車聯網行業,某車企將數據儲存在HBase中,以支持PB級別的數據存儲和毫秒級的數據詳單查詢。

      車聯網行業海量數據存儲場景

      該場景下MRS的優勢如下所示。

      實時:利用Kafka實現海量汽車的消息實時接入。

      海量數據存儲:利用HBase實現海量數據存儲,并實現毫秒級數據查詢。

      分布式數據查詢:利用Spark實現海量數據的分析查詢。

      1.2.3、實時數據處理

      實時數據處理通常用于異常檢測、欺詐識別、基于規則告警、業務流程監控等場景,在數據輸入系統的過程中,對數據進行處理。

      例如在梯聯網行業,智能電梯的數據,實時傳入到MRS的流式集群中進行實時告警。

      梯聯網行業低時延流式處理場景

      該場景下MRS的優勢如下所示。

      實時數據采集:利用Flume實現實時數據采集,并提供豐富的采集和存儲連接方式。

      海量的數據源接入:利用Kafka實現萬級別的電梯數據的實時接入。

      2、操作步驟

      詳細體驗過程如下:

      2.1、登錄實驗環境

      2.2、購買MapReduce服務

      登錄華為云完成后點擊“控制臺”->“服務列表”->“大數據”->“MapReduce服務MRS”進入MRS控制臺,如下圖所示:

      點擊右上角“購買集群”,進入購買集群頁面。請選擇“自定義購買”頁面。按照如下信息配置集群基本信息:【區域】:華北-北京四【集群名稱】:自定義名稱,本實驗手冊以“mrs-hcia”為例【集群版本】:MRS 1.9.2【集群類型】:混合集群;

      【分析組件】:全選

      【流式組件】:全選

      元數據:本地元數據完成后單擊“下一步”。硬件配置如下:【計費模式】:按需計費【可用區】:默認【虛擬私有云】:點擊“查看虛擬私有云”,進入虛擬私有云界面,點擊“創建虛擬私有云”,所有參數默認,點擊“立即創建”即可。回到購買集群頁面,點擊刷新按鈕,即可選中創建的虛擬私有云。【子網】:虛擬私有云創建完成后子網自動創建并選中【安全組】:自動創建【彈性公網IP】:暫不綁定

      直接選用默認設置,選擇“立即創建”。

      此時選擇創建的私有云,選擇子網,企業項目。

      修改分析core節點配置

      修改流式core節點配置。

      在高級配置中,設置admin和root帳號密碼。

      以上操作順利完成后,出現如下成功創建提示。

      此時可看到集群狀態為創建中。

      2.3、購買彈性公網IP

      進入創建的集群節點,

      找到集群的master節點

      點擊后,選擇查看公網ip

      選擇購買公網IP

      創建后,會出現二個公網IP地址。

      2.4、綁定彈性IP

      瀏覽器切回到彈性云服務器的管理控制臺頁面。點擊“綁定彈性公網IP”,網卡默認,勾選選擇一個IP,點擊“確定”。

      2.5、修改安全組

      修改云主機安全組;

      進入虛擬私有云管理界面后,依次單擊左側 “訪問控制”->“安全組”,進入安全組管理界面后,點擊以mrs開頭的安全組。

      放通所有策略。

      2.6、訪問集群的管理頁面

      切換瀏覽器至“mrs-hcia”集群詳情頁面,點擊“概覽”->“IAM用戶同步”,點擊同步,然后點擊“前往 Manager”,

      出現如下界面,并輸入前面設置的密碼信息。

      點擊“登錄”,即可進入MRS Manager頁面。

      2.7、利用MapReduce做單詞統計

      切回到桌面雙擊“Xfce終端”打開Terminal輸入執行以下命令下載實驗數據。

      wget https://sandbox-experiment-resource.obs.cn-north-1.myhuaweicloud.com/mapreduce/wordcount

      下載成功后界面如下:

      下載wordcount jar包

      2.8、將數據和代碼上傳到OBS

      在瀏覽器點擊“控制臺”->"服務列表" -> "存儲" -> "對象存儲服務",進入到對象存儲服務頁面,如下圖所示:

      在obs管理頁面點擊“創建桶”按鈕創建一個OBS桶。參數配置如下圖所示:【區域】:華北-北京四【數據冗余存儲策略】:單AZ存儲【桶名稱】:自定義【存儲類別】:標準存儲【桶策略】:私有【默認加密】:關閉【歸檔數據直讀】:關閉【標簽】:默認

      自定義桶名,選擇單AZ;

      此時會提示創建成功。

      創建完成后點擊桶名稱進入對象存儲服務,點擊左側欄"對象",進入到對象管理頁面,再點擊“新建文件夾”創建一個名為“input”的文件夾,如下圖所示:

      同時將之前下載的文件上傳至桶中。

      2.9、提交mapreduce作業,進行單詞統計

      集群管理頁面,選擇“作業管理”

      填寫相關信息。

      2.10、使用hdfs命令行客戶端查詢計算結果

      在MRS Manager頁面的地址欄,復制彈性IP地址,如下圖所示

      雙擊“Xfce終端”打開Terminal,通過如下步驟,登錄彈性服務器:操作說明:①輸入ssh root@EIP;②用復制的彈性IP替換命令中的EIP,回車執行;③接受秘鑰輸入“yes”,回車執行;④輸入密碼(創建集群時設置的root密碼),回車執行。注意:輸入密碼時,命令行窗口不會顯示密碼,輸完之后直接回車即可連接成功,如下圖所示:

      根據提示輸入相應的密碼信息。

      登錄成功后,執行以下命令查看計算結果。

      source /opt/client/bigdata_env && hdfs dfs -cat /user/wordcount/*

      執行成功如下圖所示:

      由以上可知集群工作狀態正常。

      3、你覺得這項能力會給你帶來哪些幫助:

      熟悉了如何開通MapReduce服務;

      了解了MapReduce分析組件的各項功能及用途;如Hue組件,可提供hadoop UI能力,能讓用戶通過瀏覽器分析處理Hadoop集群數據;Spark組件,具有快速、通用的大數據處理引擎;

      熟悉了如何在華為云平臺創建私有云;

      MapReduce服務初體驗【玩轉華為云】

      熟悉了如何通過公網管理MapReduce集群主機;

      熟悉了MapReduce Manager管理功能,管理功能很全面,方便用戶進行日常運維。主要包括針對集群主機健康檢查、各項MRS服務的健康狀態、服務管理、主機管理、租戶管理、告警管理、審計管理,同時集群中磁盤占用率、磁盤讀寫速率均會呈現出來,方便用戶進行管理。

      MapReduce操作界面簡潔、實際操作方便,很易上手。

      4、你所遇到的問題是:

      在開通MapReduce服務時集群存在幾個版本,分別有什么區別?應用場景有什么不一樣嗎?

      在開通MapReduce服務時集群類型有分析集群、流式集群、混合集群,這三者有何不同之處,用戶在購買時該如何進行選擇?

      在集群節點中,Master、分析Core、流式Core三個節點用途分別是什么?針對不同業務場景,實例數量有什么比例關系嗎?

      在創建MapReduce時花費時間稍微有點長(15分鐘左右);是和選擇的節點配置有關系嗎?如果配置選高些,創建速度是否會快些?

      5、結尾

      實驗鏈接如下,感興趣的同學可以進行實際操作。

      https://lab.huaweicloud.com/testdetail_376?ticket=ST-1274995-ed41wO324XxCRZwyAJDdceVC-sso

      MapReduce MapReduce服務 大數據

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:Java性能優化學習1:理論基礎學習與分析
      下一篇:且看張小白如何用暗影精靈玩轉MindSpore(三)3080的崛起
      相關文章
      一本色道久久88亚洲综合| 色婷婷亚洲一区二区三区| 久久精品国产亚洲一区二区三区| 亚洲AV成人片无码网站| 亚洲AV日韩综合一区尤物| 在线综合亚洲中文精品| 亚洲mv国产精品mv日本mv| 亚洲av乱码一区二区三区| 亚洲一区无码中文字幕乱码| 亚洲人成免费网站| 亚洲videos| 亚洲日本在线电影| 亚洲国产精品网站在线播放| 亚洲狠狠婷婷综合久久| 亚洲av最新在线观看网址| 日本亚洲中午字幕乱码| 亚洲国产成人精品无码久久久久久综合 | 亚洲中文字幕久久精品无码2021| 亚洲系列国产精品制服丝袜第| 久久久无码精品亚洲日韩蜜臀浪潮 | 国产综合激情在线亚洲第一页| 久久亚洲AV成人无码国产电影| 国产成人久久精品亚洲小说| 亚洲国产精品狼友中文久久久| AV在线播放日韩亚洲欧| 亚洲国产美女精品久久久久∴| 亚洲国产精品成人久久| 久久久久亚洲AV片无码下载蜜桃 | 青青青国产色视频在线观看国产亚洲欧洲国产综合 | 久久亚洲中文字幕精品有坂深雪| 久久精品亚洲精品国产色婷 | 亚洲日本中文字幕天堂网| 亚洲一区二区三区偷拍女厕| 人人狠狠综合久久亚洲婷婷| 亚洲色欲色欲综合网站| 亚洲制服在线观看| 亚洲色成人网站WWW永久四虎| 婷婷国产偷v国产偷v亚洲| 国产亚洲成人久久| 亚洲人成在线影院| 亚洲一级大黄大色毛片|