FluidSynth】FluidSynth 簡介 ( 相關資源鏈接 | 簡介 | 特征 )">【FluidSynth】FluidSynth 簡介 ( 相關資源鏈接 | 簡介 | 特征 )
954
2022-05-29
FusionInsight Manager提供對集群內的用戶數據及系統數據的備份恢復能力,備份功能按組件提供。系統支持備份Manager的數據、組件元數據(DBService、Elasticsearch、HDFS NameNode、HBase、Kafka、Yarn)及業務數據(HBase、HDFS、Elasticsearch、Hive、Redis)。
備份功能支持將數據備份至本地磁盤(LocalDir)、本端HDFS(LocalHDFS)、遠端HDFS(RemoteHDFS)、NAS(NFS/CIFS)、SFTP服務器(SFTP)
對于支持多服務的組件,支持同服務多個實例的備份恢復功能且備份恢復操作與自身服務實例一致。
備份恢復任務的使用場景如下:
用于日常備份,確保系統及組件的數據安全。
當系統故障導致無法工作時,使用已備份的數據完成恢復操作。
當主集群完全故障,需要創建一個與主集群完全相同的鏡像集群,可以使用已備份的數據完成恢復操作。
LocalDir
LocalHDFS
RemoteHDFS
NFS
CIFS
SFTP
LocalDir
LocalHDFS
RemoteHDFS
NFS
CIFS
SFTP
LocalDir
LocalHDFS
RemoteHDFS
NFS
CIFS
LocalDir
RemoteHDFS
NFS
CIFS
SFTP
LocalDir
RemoteHDFS
NFS
CIFS
LocalHDFS
RemoteHDFS
NFS
CIFS
SFTP
RemoteHDFS
NFS
需要特別說明的是,部分組件不提供單獨的數據備份與恢復功能:
Kafka支持副本特性,在創建主題時可指定多個副本來備份數據。
Solr的SolrServerAdmin和SolrServerN可以通過自動創建Replica來實現不同節點之間的數據備份。
Mapreduce和Yarn的數據存放在HDFS上,故其依賴HDFS提供備份與恢復即可。
GraphBase的底層數據是以表的形式存儲在HBase中,而它的索引數據存在于Elasticsearch中,故其依賴HBase和Elasticsearch提供備份與恢復。
ZooKeeper中存儲的業務數據,其備份恢復能力由各上層組件按需獨立實現。
任務
在進行備份恢復之前,需要先創建備份恢復任務,并指定任務的參數,例如任務名稱、備份數據源和備份文件保存的目錄類型等等。通過執行備份恢復任務,用戶可完成數據的備份恢復需求。在使用Manager執行恢復HDFS、HBase、Elasticsearch、Hive和NameNode數據時,無法訪問集群。
每個備份任務可同時備份不同的數據源,每個數據源將生成獨立的備份文件,每次備份的所有備份文件組成一個備份文件集,可用于恢復任務。備份任務支持將備份文件保存在Linux本地磁盤、本集群HDFS與備集群HDFS中。備份任務提供全量備份或增量備份的策略,增量備份策略支持HBase、Elasticsearch、HDFS和Hive備份任務,OMS、DBService和NameNode備份任務默認只應用全量備份策略。
管理員在規劃備份恢復任務時,請嚴格根據業務邏輯、數據存儲結構、數據庫或表關聯關系,選擇需要備份或者恢復的數據。系統默認創建間隔為1小時的周期備份任務“default-oms”、“default-集群ID”,支持全量備份OMS及集群的DBService、NameNode等元數據到本地磁盤。
說明:
某個任務已經處于執行狀態,則當前任務無法重復執行,其他任務也無法啟動。
周期任務自動執行時,距離該任務上次執行的時間間隔需要在120秒以上,否則任務推遲到下個周期啟動。手動啟動任務無時間間隔限制。
周期任務自動執行時,當前時間不得晚于任務開始時間120秒以上,否則任務推遲到下個周期啟動。
周期任務鎖定時無法自動執行,需要手動解鎖。
OMS、DBService、Kafka和NameNode備份任務開始執行前,若主管理節點“LocalBackup”分區可用空間小于20GB,則無法開始執行。
快照
系統通過快照技術,快速備份數據??煺瞻琀Base快照、HDFS快照和Elasticsearch快照。
HBase快照
HBase快照是HBase表在特定時間的一個備份,該備份文件不復制業務數據,不影響RegionServer。HBase快照主要復制表的元數據,包含table descriptor,region info和HFile的引用信息。通過這些元數據信息可以恢復快照時間點之前的數據。
HDFS快照
HDFS快照是HDFS文件系統在特定時間點的只讀備份副本,主要用于數據備份、用戶誤操作保護和災難恢復的場景。
任意HDFS目錄均可以配置啟用快照功能并創建對應的快照文件,為目錄創建快照前系統會自動啟用此目錄的快照功能。創建快照不會對正常的HDFS操作有任何影響。每個HDFS目錄最多可創建65536個快照。
如果一個HDFS目錄已創建快照,那么在快照完全刪除以前,此目錄無法刪除或修改名稱。該目錄的上級目錄或子目錄也無法再創建快照。
Elasticsearch快照
Elasticsearch快照是利用Elasticsearch提供的備份集群中索引數據的策略——snapshot API。在特定時間來備份當前集群的狀態和數據,并保存到指定的快照倉庫中。第一個快照會是一個數據的完整拷貝,但所有后續的快照保留的是已存快照和新數據之間的差異。
DistCp
DistCp(distributed copy)是一個用于在本集群HDFS中或不同集群HDFS間進行大量數據復制的工具。在HBase、HDFS、Elasticsearch或Hive元數據的備份恢復任務中,如果選擇將數據備份在備集群HDFS中,系統將調用DistCp完成操作。主備集群請選擇安裝相同版本的FusionInsight MRS軟件版本并安裝集群系統。
DistCp使用Mapreduce來影響數據的分布、異常處理及恢復和報告,此工具會把指定列表中包含的多個源文件和目錄輸入不同的Map任務,每個Map任務將復制列表中指定文件對應分區的數據。
使用DistCp在兩個集群的HDFS間進行數據復制,集群雙方需要分別配置互信(同一個FusionInsight Manager管理下的集群不需要配置互信)和啟用集群間拷貝功能。集群數據備份到另一個集群的HDFS時,需要安裝Yarn組件,否則備份失敗。
本地快速恢復
使用DistCp將本集群HBase、HDFS和Hive數據備份在備集群HDFS中以后,本集群HDFS保留了備份數據的快照。用戶可以通過創建本地快速恢復任務,直接從本集群HDFS的快照文件中恢復數據。
NAS
NAS(Network Attached Storage)是一種特殊的專用數據存儲服務器,包括存儲器件和內嵌系統軟件,可提供跨平臺文件共享功能。利用NFS(支持NFSv3、NFSv4)和CIFS(支持SMBv2、SMBv3)協議,用戶可以連通FusionInsight MRS的業務平面與NAS服務器,將數據備份至NAS或從NAS恢復數據。
說明:
數據備份至NAS前,系統會自動將NAS共享地址掛載為本地分區。在備份結束后,系統會卸載NAS共享分區。
為防止備份恢復失敗,數據備份及恢復期間,請勿訪問NAS服務器掛載至本地的共享地址,如:“/srv/BigData/LocalBackup/nas”。
業務數據備份至NAS時,會使用DistCp。
在EulerOS 2.1操作系統上,不支持使用NFS協議將數據備份至NAS或從NAS恢復數據。
EI企業智能 FusionInsight Hadoop MapReduce
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。