考鯤鵬BoostKit微認(rèn)證,贏福卡,兌華為P40 pro!
“新基建”下,大數(shù)據(jù)等關(guān)鍵技術(shù)高速發(fā)展,隨著數(shù)據(jù)呈現(xiàn)爆炸式的增長,數(shù)據(jù)處理的場景對計(jì)算和存儲的要求越來越高。大數(shù)據(jù)就是一門未處理海量數(shù)據(jù)而誕生的技術(shù),包括數(shù)據(jù)的收集,處理和存儲。
今天我將為您揭秘如何通過對關(guān)鍵參數(shù)及相關(guān)組件的調(diào)整,使作業(yè)運(yùn)行效率達(dá)到最優(yōu)。
首先我將為大家介紹大數(shù)據(jù)場景為什么需要調(diào)優(yōu),并結(jié)合大數(shù)據(jù)組件特點(diǎn)和業(yè)務(wù)場景,告知大家基本調(diào)優(yōu)思路和常用的性能監(jiān)控工具;然后,以HBase的調(diào)優(yōu)案例為例,介紹大數(shù)據(jù)組件調(diào)優(yōu)過程中可能會遇到的問題及調(diào)優(yōu)思想,最后,在實(shí)踐部分簡要介紹Hadoop組件的調(diào)優(yōu)流程。
通過本文,您將了解到大數(shù)據(jù)調(diào)優(yōu)過程中的常見問題,初步學(xué)習(xí)大數(shù)據(jù)調(diào)優(yōu)的基本思路,并采用調(diào)優(yōu)手段解決問題。
大數(shù)據(jù)并行計(jì)算特點(diǎn)天然匹配鯤鵬多核架構(gòu)
大數(shù)據(jù)介紹及組件關(guān)系分布
大數(shù)據(jù)是集收集,處理,存儲為一體的技術(shù)總稱。在海量數(shù)據(jù)處理的場景,大數(shù)據(jù)對計(jì)算及存儲的要求較高,普遍以集群形式存在。不同的組件有不同的功能體現(xiàn)。如圖,這些就是一些大數(shù)據(jù)生態(tài)中常用的組件以及對應(yīng)的功能的體現(xiàn)。
大數(shù)據(jù)普遍是以集群的形式存在的,但有任務(wù)需要處理海量的數(shù)據(jù)時,一般會把任務(wù)先分解成更小規(guī)模的任務(wù),通過增加并發(fā)的方式來提高性能。而鯤鵬多核計(jì)算的特點(diǎn)能進(jìn)一步的提高大數(shù)據(jù)任務(wù)的并發(fā)度與大數(shù)據(jù)多任務(wù)并行執(zhí)行的需求天然匹配。
此處以圖中MapReduce模型為例。
我們假設(shè)數(shù)據(jù)量比較大,比如說是1TB,首先我們將原數(shù)據(jù)進(jìn)行分割。比如說128MB一份,分成若干份,再分配給MapReduce進(jìn)行映射、排序、合并,最后再將結(jié)果進(jìn)行匯總,整個任務(wù)就是統(tǒng)計(jì)每個單詞出現(xiàn)的頻率。MapReduce就是將任務(wù)分成多個子任務(wù)進(jìn)行統(tǒng)計(jì),再合并結(jié)果,在結(jié)果上其實(shí)是一樣的,但并發(fā)度和資源利用率上就有所提升。
但是,為了獲得更好的性能,仍需根據(jù)硬件配置和應(yīng)用程序特點(diǎn),對軟硬件系統(tǒng)做進(jìn)一步的優(yōu)化。調(diào)優(yōu)原因如下:
l??組件參數(shù)默認(rèn)值保守:?應(yīng)用程序和操作系統(tǒng)為了兼容不同環(huán)境,涉及性能的參數(shù)默認(rèn)值較小,不能發(fā)揮集群資源的最大性能
l??合理配置上下游組件的資源分配:?同一套大數(shù)據(jù)集群環(huán)境中會安裝不同的組件,而不同組件對CPU、磁盤、網(wǎng)絡(luò)等資源需求不同,需合理配置
l??性能瓶頸因硬件配置而異:?因硬件環(huán)境常無法統(tǒng)一,當(dāng)某個硬件資源提前到達(dá)瓶頸,需根據(jù)實(shí)際硬件配置進(jìn)行針對性的調(diào)優(yōu)
那么常見的調(diào)優(yōu)思路有哪些呢?
第一部分是基礎(chǔ)調(diào)優(yōu)操作,確保集群擁有較優(yōu)的性能:
l??常用調(diào)優(yōu)思路:當(dāng)客戶端壓力不足以發(fā)揮大數(shù)據(jù)集群的性能時,需優(yōu)先提高客戶端壓力
l??保障測試壓力:根據(jù)組件特點(diǎn),盡可能多地分配該組件依賴的物理資源(CPU、磁盤、內(nèi)存、網(wǎng)絡(luò)等)
第二部分為重復(fù)資源監(jiān)控、確定瓶頸、優(yōu)化動作,可以針對性解決問題,提升性能
l??分配物理資源:使用性能監(jiān)控工具觀察系統(tǒng)狀態(tài)并進(jìn)行記錄,如CPU、磁盤、內(nèi)存、網(wǎng)絡(luò)、應(yīng)用程序GC狀況、熱點(diǎn)函數(shù)等
l??監(jiān)控資源使用情況:基于組件、應(yīng)用程序特點(diǎn)和監(jiān)控?cái)?shù)據(jù)識別性能瓶頸,瓶頸可能是物理資源、組件參數(shù)、測試工具、測試組網(wǎng)、JVM、鎖等
l??確定性能瓶頸:根據(jù)識別的瓶頸針對性地進(jìn)行優(yōu)化,其中,優(yōu)化手段有時并不會生效,需進(jìn)一步確定是否鎖定瓶頸及優(yōu)化手段是否正確
那么常見的調(diào)優(yōu)問題有哪些呢?
l??應(yīng)用層面:CPU占用率低、內(nèi)存消耗盡但CPU等資源還有富余、GC頻繁、CPU占用率高
l??硬件層面:磁盤IO占用率高,CPU iowait高、網(wǎng)絡(luò)IO占用率高、內(nèi)存占用多
l??客戶端:組件參數(shù)已確保較優(yōu),但性能不好
以上,我們介紹了大數(shù)據(jù)場景,為何需要調(diào)優(yōu)?通過調(diào)優(yōu)能解決哪些類型的問題,然后結(jié)合并結(jié)合大數(shù)據(jù)組件特點(diǎn)和業(yè)務(wù)場景,列舉了基本調(diào)優(yōu)思路和常用的性能監(jiān)控工具,列舉一些常用的調(diào)優(yōu)思路。那么性能監(jiān)控的工具有哪些,我們又如何進(jìn)行實(shí)際的調(diào)優(yōu)操作呢?
歡迎學(xué)習(xí)華為云學(xué)院微認(rèn)證《基于BoostKit的大數(shù)據(jù)性能調(diào)優(yōu)實(shí)踐》,了解詳細(xì)實(shí)踐內(nèi)容。該課程非常適合對大數(shù)據(jù)組件調(diào)優(yōu)感興趣的開發(fā)者,或大數(shù)據(jù)各個組件的初學(xué)者,該課程介紹了介紹大數(shù)據(jù)主要組件性能調(diào)優(yōu)的經(jīng)驗(yàn),以Hbase為例介紹調(diào)優(yōu)過程,并通過實(shí)踐鞏固調(diào)優(yōu)理論,學(xué)習(xí)本課程后,你能夠?qū)Υ髷?shù)據(jù)組件調(diào)優(yōu)有基本的理解和思路,能根據(jù)特定場景對特定組件進(jìn)行調(diào)優(yōu)
快來跟我一起學(xué)習(xí)吧,限時0元考Kunpeng BoostKit全新上線微認(rèn)證,一站式在線學(xué)習(xí)、實(shí)驗(yàn)與考試,還可贏百萬碼豆和“牛轉(zhuǎn)乾坤”福卡,兌換華為P40pro、華為MatePad、華為WATCH GT等精美禮品!
→點(diǎn)擊直達(dá)華為云學(xué)院,get更多新技能
鯤鵬
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。