大數據“復活”記
873
2025-03-31
BoostKit大數據整體體介紹
一、鯤鵬應用使能套件BoostKit——釋放倍級性能優勢
華為早在2004年開始擁抱并積極建設ARM開源生態。2019年發布鯤鵬計算戰略,鯤鵬作為ARM生態的重要組成內容,華為進一步聚焦發展鯤鵬生態。2020年發布鯤鵬BoostKit應用使能套件,全方位使能開源、貢獻開源,繁榮鯤鵬的軟件生態。
目前,鯤鵬BoostKit已經使能超過90%主流開源軟件支持鯤鵬平臺,覆蓋大數據、分布式存儲、數據庫、虛擬化等主流場景。未來三年內,鯤鵬BoostKit將聚焦使能主流開源軟件支持鯤鵬平臺發揮高性能
提供全棧優化的應用加速能力
應用加速:應用性能倍級優勢
基礎加速:性能超越業界水平
開源使能:開源軟件可用、好用
二、面向八大場景,提供場景化BoostKit
鯤鵬BoostKit,面向大數據、分布式存儲和數據庫等主流應用場景,提供加速數據處理、優化存儲訪問和提升算力部署密度的場景化使能套件。
1、BoostKit大數據
“新基建”下,大數據等關鍵技術高速發展,對關鍵參數及相關組件的調整,使作業運行效率達到最優。
聚焦大數據查詢效率低、性能優化難等挑戰,提供大數據組件的開源使能和調優、IO智能預取等基礎加速軟件包、Spark算法加速庫等應用加速軟件包,開源openLooKeng查詢引擎,提升大數據分析效率。
了解詳細:https://www.hikunpeng.com/developer/boostkit/big-data
2、BoostKit分布式存儲
聚焦Ceph性能低、成本高等挑戰,提供Ceph參數優化、MD5摘要算法、IO直通等特性提升系統性能,并通過壓縮算法、Zlib壓縮、EC Turbo等特性降低存儲成本,提供高性價比存儲方案。
了解詳細:https://www.hikunpeng.com/developer/boostkit/sds
3、BoostKit數據庫
針對開源MySQL OLAP查詢效率低、OLTP場景鎖性能問題等挑戰,提供MySQL AP性能加速和TP鎖性能優化等基礎加速軟件包,深度優化了OLAP查詢分析效率和OLTP在線交易事務處理能力,充分發揮多核算力。
了解詳細:https://www.hikunpeng.com/developer/boostkit/database
4、BoostKit虛擬化
聚焦虛擬化性能低、網絡損耗大、資源碎片嚴重等痛點,提供虛擬化開源使能調優指南,通過V-Turbo和OVS加速等特性提升系統性能,使用NUMA內存交織等特性減少資源碎片,充分發揮鯤鵬多核優勢。
了解詳細:https://www.hikunpeng.com/developer/boostkit/virtualization
5、BoostKit ARM原生
支持移動應用無損上云,完整方案包括硬件、Host OS、ExaGear、虛擬化方案(Kbox /Robox/QEMU)、Guest OS、端云協同引擎。
(1、端云協同引擎
端云協同引擎包含手機端側和服務器側兩部分,提供用于業務二次開發的核心引擎,引擎本身是動態鏈接庫,不是一個完整的軟件系統,不能獨立運行,必須被客戶或者ISV集成到程序中才具備軟件系統的能力。
(2、基礎云手機
在Ubuntu系統上部署不同虛擬機軟件(Kbox/Robox/QEMU),實現在Linux系統上啟動Android系統的基礎云手機的參考方案,用于Android的應用和游戲運行。
(3、硬件平臺
基于TaiShan 200服務器(型號2280),增加專業的GPU和編解碼卡,提供高性價比的硬件平臺。
(4、云游戲/云手機APK
客戶或者ISV基于手機端側的端云協同引擎開發的云游戲和云手機的APK。
(5、云手機管理系統
提供對云游戲和云手機業務運營進行管理,如終端用戶的管理、云游戲/云手機實例管理、計費模式等。因不同客戶對管理訴求各有不同,所以,由客戶或者ISV根據具體的業務訴求進行開發。
了解詳細:https://www.hikunpeng.com/developer/boostkit/arm-native
6、BoostKit Web
聚焦Web應用HTTPS連接性能和Web開源組件可用性等問題,提供開源Web組件使能調優指南,通過使能鯤鵬RSA加速引擎,幫助客戶提升Web網站的安全性,并實現用戶HTTPS訪問的極致體驗。
了解詳細:https://www.hikunpeng.com/developer/boostkit/web
7、BoostKit CDN
鯤鵬BoostKit CDN使能套件聚焦CDN開源組件可用性和CDN緩存節點吞吐量低、時延大等問題,提供CDN主流組件的開源使能和性能調優指南,通過使能鯤鵬處理器內置的RSA加速引擎,對RSA2048算法進行硬件卸載,同時提供了NUMA優化等手段,以便充分發揮鯤鵬處理器多核優勢,助力客戶CDN緩存節點提供更大吞吐量,實現更低時延。
8、BoostKit HPC
鯤鵬BoostKit HPC使能套件聚焦資源調度效率低、應用性能優化難等關鍵挑戰,通過全棧架構創新、軟硬件自研、底層基礎軟件優化和行業應用性能調優等技術構建全棧高性能計算基礎平臺,幫助客戶釋放平臺算力,縮短產品上市周期,提升企業產品競爭力。
架構簡介:鯤鵬BoostKit HPC使能套件(簡稱鯤鵬BoostKit HPC)總體架構由:基礎設施、硬件平臺、基礎軟件行業應用層組成。
(1、行業應用
當前可以支持并應用的行業,包含氣象、制造、EDA、政府HPC等;對于開源行業應用,可以通過鯤鵬代碼遷移工具遷移適配后在鯤鵬平臺上運行。
(2、基礎軟件
提供統一高效的集群計算套件CCSuite,包括集群管理平臺CCPortal、作業調度器CCScheduler、通信庫Hyper MPI,同時提供或兼容鯤鵬GCC編譯器,鯤鵬KML數學庫和CentOS操作系統。
(3、硬件平臺
提供多樣化的計算資源、高性能存儲及主流高速網絡。
(4、基礎設施
提供模塊化的數據中心。
高性能開源組件——華為高性能通信庫 Hyper MPI
Hyper MPI是整個高性能計算解決方案的關鍵組件,它實現了并行計算的網絡通訊功能,可以用來支持制造、氣象、超算中心等應用場景,同時該通信庫也可擴展應用于AI、大數據等通用領域。Message Passing Interface(MPI)是支持多編程語言編程的并行計算通訊應用接口,具有高性能、大規模性、可移植性、可擴展性等特點。
華為高性能通信庫(Hyper MPI)是基于Open MPI 4.0.3和Open UCX 1.9.0,支持MPI-V3.1標準的并行計算API接口,新增了優化的集合通信框架。同時,Hyper MPI對數據密集型和高性能計算提供了網絡加速能力,使能了節點間高速通信網絡和節點內共享內存機制,以及優化的集合通信算法。Hyper MPI的COLL UCX通信框架能夠支持的最大數據包長度為2^32字節。
了解詳細:https://www.hikunpeng.com/developer/boostkit/hpc/hypermpi
三、鯤鵬BoostKit大數據——聚焦大數據關鍵挑戰,讓數據處理更快、更簡單
鯤鵬BoostKit大數據使能套件針對大數據組件優化數據處理流程,提升計算并行度,充分發揮鯤鵬系列處理器的并發能力,給客戶提供更高的大數據業務性能。
1、常見問題分析
多樣化查詢無法統一,效率低
數據分析組件性能無法滿足要求
磁盤IO存在瓶頸,HDFS性能提升困難
多樣化數據來源,跨數據源用數難
數據非共享。跨數據中心取數難
2、鯤鵬BoostKit大數據解決方案
(1)跨源跨域查詢加速
openLooKeng統一數據入口
支持跨源、跨域分析,查詢性能倍級提升
(2)spark性能加速
原生機器學習/圖算法深度優化
Spark性能倍級提升
(3)HDFS性能加速
IO智能預取,高效取數
Spark/Hbase性能提升20%
3、鯤鵬BoostKit大數據方案架構及優勢
從大數據的發展趨勢可以看出,大數據對于計算能力的要求越來越高,需要有更適配大數據技術特征的計算硬件來提供更高的計算能力。TaiShan服務器的鯤鵬916系列處理器提供32核2.4GHz,鯤鵬920系列處理器提供24核2.6GHz、32核2.6GHz、48核2.6GHz、64核2.6GHz四種規格,均高于業界主流平臺,鯤鵬系列處理器可以高度匹配大數據這類高并發的典型業務場景。
鯤鵬BoostKit大數據使能套件針對大數據組件優化數據處理流程,提升計算并行度,充分發揮鯤鵬系列處理器的并發能力,給客戶提供更高的大數據業務性能,支持TaiShan服務器與業界其他架構服務器混合部署,保護客戶已有投資,不捆綁客戶的服務器架構選擇。
鯤鵬BoostKit大數據總體架構主要由硬件平臺、操作系統、中間件、大數據平臺構成,其中大數據平臺支持華為自研的FusionInsight大數據平臺以及開源Apache、星環、蘇研大數據平臺。
鯤鵬BoostKit大數據總體架構組件說明
名稱
說明
硬件基礎
提供基于華為鯤鵬處理器的TaiShan服務器,高速緩存場景支持使用SSD進行加速。
操作系統
支持主流的商用、開源操作系統和國產化操作系統。
加速特性
支持鯤鵬指令加速Erasure Code編解碼,芯片自帶加解密加速器,提供算法與指令優化的KAL機器學習加速庫。
編譯器
JDK、GCC、LLVM等常用的大數據編譯器中間件均支持鯤鵬產業生態。
大數據組件
支持開源眾多大數據組件,包括核心的Hadoop、HBase、Spark、Hive、Flink、Elasticsearch等。
大數據平臺
支持華為自研的FusionInsight大數據平臺以及開源Apache、星環、蘇研大數據平臺等。
鯤鵬BoostKit大數據基于TaiShan服務器,端到端打通硬件、操作系統、中間件、大數據軟件的全堆棧,支持多個主流的大數據平臺。主要價值如下:
高性能
鯤鵬BoostKit大數據提升計算并行度,充分發揮華為鯤鵬處理器的多核能力:
TaiShan 200服務器(2*華為鯤鵬920 5220處理器)對比業界主流中端雙路服務器:計算業務性能持平,BoostKit主推型號
TaiShan 100服務器(2*華為鯤鵬916 5130處理器)業務性能對比業界主流低端服務器:性能持平,BoostKit主推型號
TaiShan 200服務器(2*華為鯤鵬920 5250處理器)對比業界主流高端雙路服務器:計算業務性能提升15%
TaiShan 200服務器(2*華為鯤鵬920 3210處理器)對比業界主流低端雙路服務器:計算業務性能提升10%
安全可靠
鯤鵬BoostKit大數據支持處理器內置加密硬件,更安全可靠:
華為鯤鵬920處理器支持國密算法加速,聯合FI構建國產化安全可信大數據。
CPU內置硬件加速器,更安全。
加密對業務性能的損耗低于10%。
開放生態
鯤鵬BoostKit大數據擁有成熟的大數據生態:
支持開源Apache組件,支持蘇研、星環等多個第三方大數據平臺。
支持大數據組件TaiShan服務器與其他架構服務器混合部署。
四、在鯤鵬社區上一站式獲取BoostKit所有加速軟件和文檔
鯤鵬應用使能套件內容導航
1、初識BoostKit
BoostKit整體介紹:https://www.hikunpeng.com/developer/boostkit
鯤鵝BoostKit定義
覆蓋八大應用場景介紹
2、了解方案整體能力
BoostKit大數據整體介紹:https://www.hikunpeng.com/developer/boostkit/big-data
BoostKit大數據架構
優勢介紹
應用遷移向導
典型業務場景
幫助文檔
開發者資源
3、進階知識&成長
BoostKit文檔:https://support.huaweicloud.com/wtsnew-kunpengbds/index.html
BoostKit大數據成長地圖:https://support.huaweicloud.com/kunpengbds/kunpengbds.html
方案介紹
移植工具及移植指南
開源組件部署指南
調優指南
關鍵特性
4、實踐交流平臺:https://bbs.huaweicloud.com/forum/thread-143349-1-1.html
鯤鵬BoostKit論壇
鯤鵬BoostKit大數據論壇
匯聚技術大咖
分享行業技術趨勢
技術問題解決與建議
BoostKit大數據開源使能
一、BoostKit全面支持開源大數據&推動開源社區引入ARM CI
鯤鵬鏡像倉: https://repo.huaweicloud.com/kunpeng/
邁入多樣性計算時代,ARM已經成為業界主流的計算架構之一。當前,越來越多數據中心用戶選擇遷移到ARM架構平臺,這得益于日益繁榮的ARM軟件生態。
開源軟件作為最重要的軟件開發模式之一,是軟件生態的核心。讓開源軟件與ARM平臺進行充分的軟硬件適配和性能優化,并打造可用、好用的開源軟件,顯得尤為關鍵。
二、openLooKeng統一高效的大數據SQL分析引擎
openLooKeng是一種“開箱即用”的引擎,支持在任何地點(包括地理上的遠程數據源)對任何數據進行原位分析。它通過SQL 2003接口提供了所有數據的全局視圖。openLooKeng具有高可用性、自動伸縮、內置緩存和索引支持,為企業工作負載提供了所需的可靠性。
openLooKeng 架構:https://www.hikunpeng.com/zh/developer/openLooKeng
應用系統
openLooKeng北向涵蓋各種應用,包括大數據分析平臺、BI類分析應用以及用戶自主開發的各種應用APP。
統—數據訪問接口
openLooKeng提供統—的數據訪問接口,使得應用系統訪問各類數據源變得更簡單,提供兼容標準SQL2003語法的JDBC、ODBC以及REST
內核引擎
內核引擎包含了openLooKeng的各種關鍵技術,包括性能提升、可靠性增強等方面的諸多特性模塊,例如動態過濾、啟發式索引等
統—數據源連接框架
提供數據源和數據中心的連接能力。
數據源/數據中心
數據的存儲地,包含各類異構數據源,也包括有地理距離的數據中心。
想要了解更多openLooKeng信息,請前往openLooKeng開源社區:https://openlookeng.io/zh-cn/
統一SQL入口,高效訪問
高性能的交互式查詢能力
多源異構數據源融合分析
跨域跨DC融合分析
軟件包下載:https://download.openlookeng.io/1.3.0/hetu-server-1.3.0.tar.gz
服務器類型
openLooKeng服務器有兩種類型:協調節點和工作節點。下一節將解釋這兩者的區別。
協調節點
openLooKeng協調節點是負責解析語句、規劃查詢和管理openLooKeng工作節點的服務器。它是openLooKeng安裝的“大腦”,也是客戶端連接以提交語句執行的節點。每個openLooKeng安裝必須有一個openLooKeng協調節點,以及一個或多個openLooKeng工作節點。對于開發或測試目的,可以配置openLooKeng的單個實例來執行這兩個角色。
協調節點跟蹤每個工作節點上的活動,并協調查詢的執行。協調節點創建了一個查詢的邏輯模型,其中包含一系列階段,然后將其轉換為在openLooKeng工作節點集群上運行的一系列相互連接的任務。
協調節點使用REST API與工作節點和客戶端進行通信。
工作節點
openLooKeng工作節點是openLooKeng安裝中的服務器,負責執行任務和處理數據。工作節點從連接器獲取數據,并相互交換中間數據。協調節點負責從工作節點獲取結果,并將最終結果返回給客戶端。
當openLooKeng工作節點進程啟動時,它會將自己通告給協調節點中的發現服務器,這樣openLooKeng協調節點就可以使用它來執行任務。
工作節點使用REST API與其他工作節點和openLooKeng協調節點進行通信。
1、助力華為消費者云服務平臺提供秒級查詢能力,性能提升10+倍
業務場景/需求
交互式查詢場景,目標是為數據分析人員提供方便快捷的即席查詢能力,性能要求較高,秒級查詢
當前業務痛點
通過Hive引擎來構建即席查詢任務,查詢時間太長(5分鐘~2小時)性能不滿足客戶需求
openLooKeng價值
openLooKeng提供秒級查詢能力,結果準確率高,增強了用戶對海量數據的分析能力
POc查詢性能對比
【效果】CBG即席查詢平臺采用openLooKeng后:不影響當前業務,實現查詢加速提升至秒級,性能提用戶查詢效率大大提升
2、為某省級項目提供跨地域協同分析能力,實現從天級到分鐘級跨越
業務場景/需求
打通跨省市兩級數據中心數據訪問,跨地市數據協查無需出差到當地辦案
當前業務痛點
手動數據批量抽取數據到省中心,效率低,數據分析耗時長;重大事件需協查需要出差到當地辦案
openLooKeng價值
openLooKeng跨地域協同分析能力強,可實現跨地域數據分析性能從天級縮短到分鐘級
【效果】為某省級項目提供跨地域協同分析能力,實現從天級到分鐘級跨越,實現無需出差即可實現跨地市數據協查
跨源異構查詢場景
RDBMS(如MySQL、Oracle等)、NoSQL(如HBase、ES、Kafka等)等數據管理系統廣泛用于客戶的各種應用系統中。隨著數據量的增加,數據管理越來越完善,客戶逐步基于Hive或MPPDB建立數據倉庫。這些數據存儲系統往往相互隔離,形成相互獨立的數據孤島。數據分析師經常遇到以下問題:
面對海量數據,如果不知道數據用在哪里,怎么用,就無法基于海量數據構建新的業務模型。
查詢不同的數據源,需要不同的連接方式或客戶端,運行不同的SQL方言。這些差異導致額外的學習成本和復雜的應用開發邏輯。
如果數據沒有聚合,則無法對不同系統的數據執行聯合查詢。
可以使用openLooKeng實現RDBMS、NoSQL、Hive、MPPDB等數據倉庫的聯合查詢。利用openLooKeng的跨源異構查詢能力,數據分析師可以快速分析海量數據。
跨域跨DC查詢
在二級或多級數據中心場景中,例如省-市數據中心或總部-分部數據中心,用戶經常需要從省(總部)數據中心或市(分部)數據中心查詢數據。跨域查詢的瓶頸是多個數據中心之間的網絡問題(例如帶寬不足、高時延、丟包等)。因此,查詢時延高,性能不穩定。openLooKeng是專為跨域查詢設計的跨域跨DC解決方案。openLooKeng集群部署在多個DC中。DC2中的openLooKeng集群完成計算后,通過網絡將結果傳遞給DC1中的openLooKeng集群,在DC1中的openLooKeng集群完成聚合計算。在openLooKeng跨域跨DC方案中,計算結果在openLooKeng集群之間傳遞。這避免了網絡帶寬不足和丟包帶來的網絡問題,在一定程度上解決了跨域查詢的問題。
存儲計算分離
openLooKeng本身沒有存儲引擎,但可以查詢存儲在不同數據源中的數據。因此,該系統是一個典型的存儲計算分離系統,有利于獨立擴展計算和存儲系統。? ? ? openLooKeng存儲計算分離架構適用于動態擴展集群,實現資源快速彈性伸縮。
快速數據探索
客戶擁有大量數據。為了使用這些數據,他們通常會構建專用的數據倉庫。但是,這將帶來額外的數據倉庫維護人力成本和數據ETL時間成本。對于需要快速探索數據,但又不想建設專用數據倉庫的客戶,復制數據并加載到數據倉庫費時費力。openLooKeng可以使用標準SQL定義一個虛擬數據市場,通過跨源異構查詢能力連接各個數據源。這樣,在虛擬數據市場的語義層中就可以定義出用戶需要探索的各種分析任務。借助openLooKeng的數據虛擬化能力,客戶可以快速構建基于多種數據源的探索分析服務,無需建設復雜、專用的數據倉庫。
三、大數據平臺支持混合部署——支持鯤鵬與x86混合部署,現網集群實現平滑擴容
鯤鵬BoostKit大數據支持Apache開源大數據組件,同時支持多個商業第三方大數據平臺,針對FusionInsight以及HDP平臺,支持TaiShan服務器和x86服務器混合部署。
FusionInsight
FusionInsight平臺以下組件支持單組件內部TaiShan與x86混合部署:
基于YARN與HDFS的組件:HDFS、Yarn(MR)、Hive、Spark、Flink。
分布式存儲HBase、全文檢索Elasticsearch、流處理Storm/Kafka/Flume、GraphBase、Elk。
不建議混合部署的組件:
Redis、Solr、Hue、Loader、Oozie、SmallFS。
FusionInsight大數據平臺支持混合部署的限制約束如下:
FusionInsight HD 6.5.1版本支持混合部署,原有FusionInsight軟件版本需要升級至6.5.1。
支持RedHat 6.8/7.4-x86 + CentOS7.6-TaiShan;Suse 11.4/12.4-x86 + Suse 15.1-TaiShan混部,其他OS混部請提需求給FusionInsight團隊驗證。
不支持管理控制節點混合部署,需要全x86或全TaiShan。
x86與TaiShan服務器除CPU外建議保持其他硬件配置一致。
混合部署方案的操作步驟如下:
確認x86的OS與TaiShan選型OS的混部是否在FusionInsight HD 6.5.1版本支持列表,不在則提需求給FusionInsight團隊驗證。
原有x86的FI集群升級至FusionInsight HD 6.5.1版本:需要申請購買FusionInsight升級專業服務,業務軟件需要與FusionInsight 6.5.1版本對接適配。
TaiShan服務器上架組網,FusionInsight集群啟動擴容:按FusionInsight標準的交付流程申請交付服務。
Hortonworks HDP
Hortonworks HDP大數據平臺組件可通過軟件移植運行在TaiShan服務器,并通過提供不同平臺的RPM包,實現Ambari混合部署x86與TaiShan服務器。
Hortonworks平臺以下組件支持單組件內部TaiShan與x86混合部署:
基于YARN與HDFS的組件:HDFS、Yarn(MR)、Hive、Spark、Flink。
分布式存儲HBase、全文檢索Elasticsearch、流處理Storm/Kafka/Flume。
不建議混合部署的組件:
Redis、Hue、Sqoop、Oozie
Hortonworks大數據平臺支持混合部署的限制約束如下:
x86與TaiShan需保證JDK版本一致,例如均為1.8。
x86集群要求:RedHat/CentOS 6.4及以上、SUSE 11.1及以上、EulerOS 2.1及以上、NeoKylin 6.9及以上。
TaiShan集群要求:Redhat/CentOS/SUSE/openEuler/NeoKylin,OS版本以TaiShan服務器兼容性列表為準。
支持x86集群和TaiShan集群不同類型OS不同版本的混合部署。
不支持Ambari Server節點混合部署,需要全x86或全TaiShan。
x86與TaiShan服務器除CPU外建議保持其他硬件配置一致。
混合部署方案的操作步驟如下:https://openlookeng.io/zh-cn/docs/docs/installation/deployment.html
確認x86集群與TaiShan集群的OS、JDK等版本滿足混部需求。
Ambari及所需大數據組件移植為TaiShan版本。
通過Ambari頁面操作,配置YUM源地址,擴容增加節點。
備注:FusionInsight、東方國信、星環、金山等商業大數據軟件均支持混合部署
四、鯤鵬性能優化十板斧,釋放鯤鵬硬件算力
1、提升CPU利用率,優化內存配置
CPU預取開關調整
定時器機制調整
線程并發數優化
NUMA優化
內存頁大小調整
2、IO數據讀寫優化,降低CPU等待時延
臟數據刷新策略
磁盤文件系統預讀參數調整
磁盤IO調度策略優化
文件系統參數優化
異步文件操作libaio
3、優化網卡性能,卸載CPU壓力
網絡中斷綁核
網絡小包聚合參數調整
TSO/LRO開啟
內核CRC32優化
4、軟硬協同,優化代碼
編譯選項優化
文件緩沖極致選擇
執行結果緩存
內存拷貝減少
鎖優化
性能調優五步法
1
建立基準
在進行優化或者開始進行監視之前,首先要建立一個基準數據和優化目標。這個基準包括硬件配置、組網、測試模型、系統運行數據(CPU/內存/IO/網絡吞吐/響應延時等)。我們需要對系統做全面的評估和監控,才能更好的分析系統性能瓶頸,以及實施優化措施后系統的性能變化。優化目標即是基于當前的軟硬件架構所期望系統達成的性能目標。性能調優是一個長期的過程,在優化工作的初期,很容易識別瓶頸并實施有效的優化措施,優化成果往往也很顯著,但是越到后期優化的難度就越大,優化措施更難尋找,效果也將越來越弱。因此我們建議有一個合理的平衡點。
2
壓力測試與監視瓶頸
使用峰值工作負載或專業的壓力測試工具,對系統進行壓力測試。使用一些性能監視工具觀察系統狀態。在壓力測試期間,建議詳細記錄系統和程序的運行狀態,精確的歷史記錄將更有助于分析瓶頸和確認優化措施是否有效。
3
確定瓶頸
壓力測試和監視系統的目的是為了確定瓶頸。系統的瓶頸通常會在CPU過于繁忙、IO等待、網絡等待等方面出現。需要注意的是,識別瓶頸是分析整個測試系統,包括測試工具、測試工具與被測系統之間的組網、網絡帶寬等。有很多“性能危機”的項目其實是由于測試工具、測試組網等這些很容易被忽視的環節所導致的,在性能優化時應該首先花一點時間排查這些環節。
4
實施優化
確定了瓶頸之后,接著應該對其進行優化。本文總結了筆者所在團隊在項目中所遇到的常見系統瓶頸和優化措施。我們需要注意的是,系統調優的過程是在曲折中前進,并不是所有的優化措施都會起到正面效果,負優化也是經常遇到的。所以我們在準備好優化措施的同時,也應該準備好將優化措施回滾的操作指導。避免因為實施了一些不可逆的優化措施導致重新恢復環境而浪費大量的時間和精力。
5
確認優化效果
實施優化措施后,重新啟動壓力測試,準備好相關的工具監視系統,確認優化效果。產生負優化效果的措施要及時回滾,調整優化方案。如果有正優化效果,但未達到優化目標,則重復步驟2“壓力測試與監視瓶頸”,如達成優化目標,則需要將所有有效的優化措施和參數總結、歸檔,進入后續生產系統的版本發布準備等工作中。
在性能調優經驗比較少或者對系統的軟硬件并不是非常了解時,可以參考使用五步法的模式逐步展開性能調優的工作。對于有豐富調優經驗的工程師,或者對系統的性能瓶頸已經有深入洞察的專家,也可以采用其他方法或過程展開優化工作。
這幾步驟描述鯤鵬芯片常用的性能優化方法和分析工具。分別從CPU與內存子系統,網絡子系統,磁盤IO子系統和應用程序優化4個方面闡述了常用的性能優化方法和分析工具,主要適用于執行性能優化的研發工程師和技術支持工程師。
五、BoostKit基礎加速庫:支持3種、7類加速庫,KAE和HW265加速性能超越業界
鯤鵬加速庫:對軟件基礎庫做深度性能優化,構建常用軟件庫在鯤鵬平臺上的性能競爭力,硬件加速+軟加速庫,已完成18個加速庫
備注:KAE (Kunpeng Accelerator Engine)鯤鵬加速引擎; HPRE(High Performance RSA Engine)高性能RSA加速引摩;SEC(Security Engine)硬件安
全加速引擎
六、openEuler+畢昇JDK——計算組件相比CentOS平均性能提升15%
100%開源? ? ? ? ? ? 基于鯤鵬芯片深度優化
大數據解決方案TOP優化點
磁盤/網卡隊列調度策略優化
Neon指令優化/編譯優化
AppCDs
GC算法優化
注意:關于畢昇JDK的介紹,小伙伴們可以看另一篇博客的詳細介紹:
【畢昇編譯器】編譯優化與軟硬協同釋放鯤鵬澎湃算力:https://bbs.huaweicloud.com/blogs/289527
BoostKit大數據應用加速
BoostKit機器學習/圖算法,基于原生算法深度優化,Spark性能倍級提升
使用簡單,無需修改上層應用,類和接口定義與原生保持一致,目前已優化8類27個算法
鯤鵬算法親和性優化
多核并行
訪存時延優化
內存數據結構優化
算法共性原理創新
分布式優化求解
線性代數運算
集成學習
分布式矩陣乘法
矩陣計算是機器學習算法的核心組成部分,覆蓋數據輸入、算法描述、算法訓練等計算過程。然而,在當前開源算法中,矩陣計算通常會成為計算瓶頸。鯤鵬BoostKit針對不同數據分布和規模下的矩陣計算場景,開展共性原理創新,在同等計算精度下,實現計算性能大幅度提升。
云原生 華為開源鏡像站 Mirrors 大數據 機器學習 鯤鵬
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。