大數據“復活”記
1102
2025-03-31
前言
高性能引擎簡介
ClickHouse是最近這兩年非常火的一款開源的分析型數據庫,來自俄羅斯的Yandex公司,2016年開源。它獨立于Hadoop大數據體系,其最核心的特點是極致壓縮率和極速查詢性能,能為用戶節約大量成本,同時創造更多收益。它提供了兼容標準SQL協議的接口,支持JDBC、ODBC驅動,使用C++語言實現。當然它還有個宏偉的目標:成為世界上最快的分析型數據庫,官方測試數據表明,ClickHouse領先Vertica達6倍,領先GreenPlum達到18倍,更是比傳統大數據引擎Hive、Spark等快了上百倍!這是它和其他多個開源以及商業數據庫的性能比對結果:https://clickhouse.tech/benchmark/dbms。
ClickHouse有哪些典型的應用場景?
ClickHouse是Click Stream + Data WareHouse的縮寫,它起初應用于一款Web流量分析工具,基于頁面的點擊事件流,面向數據倉庫進行OLAP分析。現在,ClickHouse被廣泛的應用于互聯網廣告、App和Web流量、電信、金融、物聯網等眾多領域,非常適用于商業智能化應用場景,在國內外有大量的應用和實踐:https://clickhouse.tech/docs/en/introduction/adopters/。
正文
手動擋集群模式升級
模糊的集群
在介紹之前,我們首先要有個思維轉變,ClickHouse集群和通常理解的集群是有差異的。比方說Hadoop集群由2個NameNode和多個DataNode組成的完備且獨立的集群,業務可以直接交互訪問;而對于多個ClickHouse節點組成的集群,它們是沒有中心節點,更多的是一個靜態資源池的概念,業務要使用ClickHouse集群模式,需要預先在各個節點的配置文件中定義cluster信息,等所有參與的節點達成共識,業務才可以正確的交互訪問,也就是說配置文件中的cluster才是我們通常理解的“集群”概念。
真實的cluster
常見的數據庫系統,隱藏了表級以下的數據分區、副本存儲等細節,用戶是無感知的,而ClickHouse則要求用戶主動來規劃和定義數據分片(shard)、分區(partition)、副本(replica)位置等詳細配置。它的這種類似“手動擋”的屬性,給用戶帶來及其不友好的體驗,所以MRS服務的ClickHouse實例對這些工作做了統一的打包處理,適配成了“自動擋”,實現了統一管理,靈活易用。具體部署形態上,一個ClickHouse實例將包含3個Zookeeper節點和多個ClickHouse節點,采用Dedicated Replica模式,數據雙副本高可靠。
平滑的彈性擴容能力
隨著業務的快速增長,面對集群存儲容量或者CPU計算資源接近極限場景,MRS服務提供了平滑的彈性擴容能力,快速的滿足客戶業務增長的訴求。在用戶進行集群擴容新的ClickHouse節點時,MRS提供了一鍵式數據Balance均衡工具,并把數據均衡的主動權交給用戶,由用戶根據業務的特點,自由決定數據均衡的方式和時間點,以便保障業務可用性,實現了更加平滑的擴容能力。
例如:
把負載高的節點從ELB中摘除,讓負載(新數據)往新節點傾斜;
使用MRS提供的專業化工具重新均衡數據;
數據雙寫老化后自動切換;
多元的鯤鵬算力加持
面對鯤鵬生態快速發展,華為云也提供包含X86、ARM鯤鵬、昇騰在內的多樣計算能力,支持從IOT、大數據、到AI等多種技術,提供最佳的性能、性價比、能效比。得益于華為云鯤鵬處理器多核優勢,MRS的ClickHouse集群也支持華為自研ARM鯤鵬服務器,充分利用鯤鵬多核高并發能力,提供了芯片級的全棧自主優化能力,同時使用華為自研的操作系統EulerOS、華為JDK及數據加速層,充分釋放底層硬件算力,實現了高性價比。
靈活易用的配置管理
MRS服務為用戶提供了統一的集群管理頁面,并將ClickHouse的實例配置向用戶完全開放,用戶可以根據自定義需求,靈活方便的通過可視化頁面修改集群配置參數,包括增刪cluster、macros、storage等信息。和其他MRS服務組件的配置一樣,ClickHouse配置也分成集群和節點兩個層面,考慮到ClickHouse引擎特殊性,需要注意不要被覆蓋。另外,需要引起特別注意是,有些高級配置建議只能由“高級”用戶使用,否則可能會導致系統異常。
高可用HA部署架構
MRS服務為用戶提供了基于ELB的HA部署架構,可以將用戶訪問流量自動分發到多臺后端節點,擴展系統對外的服務能力,實現更高水平的應用容錯。如下圖,客戶端應用請求集群時,使用ELB(Elastic Load Balance)來進行流量分發,通過ELB的輪詢機制,寫不同節點上的本地表(Local Table),讀不同節點上的分布式表(Distributed Table),這樣,無論集群寫入的負載、讀的負載以及應用接入的高可用性都具備了有力的保障。
豐富的監控運維能力
MRS提供了豐富的ClickHouse集群監控和告警能力,實時發現系統異常,保障業務穩定運行。用戶可以通過集群管理Manager的監控頁面實時查看ClickHouse集群的運行概況,如健康、配置及角色實例狀態統計等指標信息,同時還可以監控具體實例內部運行狀態,包括:實時的讀、寫、數據庫連接等多個維度的信息;此外,MRS還可以與華為云消息通知服務(SMN)的消息服務系統對接,將告警信息通過短信或者郵件等形式推送給用戶。用戶可以自定義配置監控與告警閾值用于關注各指標的健康情況,當監控數據達到告警閾值,系統將自動觸發告警,將異常信息以告警形式及時通知到用戶。通過以上能力,MRS可以幫助用戶輕松運維,實時監控,實時發送告警,操作靈活,讓用戶更加省心省力。
可靠的安全防護能力
MRS提供了VPC網絡隔離、專屬資源隔離、主機安全等完備的安全保障機制,保障了用戶ClickHouse集群數據訪問的安全可靠。具體如下:
VPC網絡隔離:在公有云部署環境中,MRS通過VPC提供隔離的網絡環境,保證集群的業務、管理的安全性。用戶可以結合虛擬私有云VPC的子網劃分、路由控制、安全組等功能,為用戶提供高安全、高可靠的網絡隔離環境。
專屬資源隔離:在面向企業、政府、金融等客戶,MRS提供了計算、存儲資源池以及網絡、管控多級隔離的資源隔離部署方案,為客戶打造了安全可靠、便捷的云上“頭等艙”。具體模式包括:專屬計算資源+共享存儲資源、共享計算資源+專屬存儲資源、專屬計算資源+專屬存儲資源等三種模式。
主機安全服務:MRS支持與云上的安全服務集成,針對主機安全服務,做了兼容性測試,保證功能和性能不受影響的情況下,增強服務的安全能力,如支持漏洞掃描、安全防護、應用防火墻、堡壘機、網頁防篡改等能力。
結尾
總結展望
MRS隆重推出的ClickHouse引擎,快速補齊了MRS服務在大數據實時分析領域的能力。同時相對用戶自建集群,MRS ClickHouse具備平滑擴容、HA、鯤鵬加持、靈活配置、簡單運維、安全可靠等優勢能力,將會成為用戶在云上構建高性能海量數據分析倉庫的首選。
同時作為一款新的重量級數據庫引擎,我們還在持續學習和探索過程中,MRS后面會持續從內核、服務化、生態端多個角度進行優化和改進,包括:鯤鵬指令集加速、安全鑒權、SQL診斷、BI工具集成、AI融合高級特性等。
MRS&ClickHouse·案例分享
MapReduce服務 大數據 EI企業智能 ClickHouse MapReduce
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。