大數(shù)據(jù)“復活”記
901
2025-03-31
部署方式
假如已有3節(jié)點DWS集群,Roach(DWS備份工具)將本節(jié)點的集群數(shù)據(jù)通過TCP發(fā)送到遠端NBU Media Server機器。每臺NBU Media Server上面同時安裝NBU Client,并部署Roach client組件,后者接收集群內(nèi)Roach進程發(fā)來的備份數(shù)據(jù),不落盤方式通過XBSA接口轉(zhuǎn)發(fā)給本機的NBU Client,完成NBU備份。恢復流程也類似,只是數(shù)據(jù)流相反。
在DWS備份過程中,一般故障主要出自以下三處:
Roach agent: 即集群節(jié)點內(nèi),直接查看集群備份日志($GAUSSLOG/roach/)即可
Roach client: 此插件主要負責數(shù)據(jù)收發(fā),日志路徑啟動時通過-l參數(shù)指定,進入該路徑查詢即可
NBU軟件端: 可通過下文定位方式排查故障
環(huán)境校驗
當進行NBU非侵入式備份時,考慮到集群備份過于重量,可以先通過指定小文件測試環(huán)境連通性,保證NBU配置
gs_roach uploadmeta --media-destination 'nbu_policy' --metadata-destination '/home/Ruby/meta' --media-type NBU --backup-key '20200903_164332' --nbu-on-remote --media-server 192.168.243.65 --client-port 9000
注:
--media-destination為NBU策略名稱
--backup-key為任一指定時間戳即可
--media-server為任意一臺部署了roach client插件的ip地址
--client-port為roach client開放的端口
--metadata-destination為上傳指定文件路徑,其中將測試上傳文件重名名為metadata.tar.gz,并放置在/home/Ruby目錄下,并非/home/Ruby/meta目錄下
如果能備份成功,則說明所連接的media server配置無問題,如果存在失敗,則NBU端配置有問題,需要按照后續(xù)說明尋求原因。
故障定義
故障排除的第一步是定義問題。在NBU系統(tǒng)的安裝、配置、運行過程中,出現(xiàn)了與正確預期不同的結(jié)果,即可認為是出現(xiàn)了故障;有時候,這要求我們知道正確的情況應該是什么樣的。
在NBU的交付和使用中常見的故障主要分為種:
一是軟件安裝和配置階段,比如軟件安裝不成功、對接不成功、某模塊功能不可用等等,這一階段的錯誤一般沒有具體的錯誤碼,需要結(jié)合交付人員的經(jīng)驗和系統(tǒng)日志進行排錯,這種故障屬于一次性的故障,在排除之后再次出現(xiàn)的可能性很小;
二是在系統(tǒng)部署完成后,數(shù)據(jù)備份業(yè)務上線、備份和恢復任務執(zhí)行時報錯,比如接入client失敗、存儲單元寫入數(shù)據(jù)失敗、找不到client服務器等等;這種故障console會提供錯誤碼(error code),維護人員可以根據(jù)錯誤進行初步的定位,這種故障屬于日常性的故障,和環(huán)境中多種因素有關,備份系統(tǒng)自身之外的業(yè)務環(huán)境發(fā)生細微的變化都有可能導致故障的出現(xiàn)。
故障排除過程
要排除問題,必須知道發(fā)生了什么錯誤。
錯誤消息通常是指出哪里出現(xiàn)故障的手段。所以,我們要做的第一件事就是查找錯誤消息。如果在界面上沒有看到錯誤消息,但仍懷疑有問題,請檢查報告和日志。NetBackup 提供了廣泛的報告和日志記錄工具,這些工具可提供錯誤消息,直接指出解決方案。日志還可顯示什么運行良好以及當發(fā)生問題時 NetBackup 正在執(zhí)行什么操作。
綜上,NBU備份與恢復故障排除過程如下:
1、確認服務器和client運行的是受支持的操作系統(tǒng)或應用版本;具體信息參看NBU兼容性列表;
2、復現(xiàn)故障,獲取故障信息;獲取信息的渠道有錯誤碼、Job Details、日志等;
3、根據(jù)獲取的信息進行故障定位和排除;
故障排除方法
使用狀態(tài)碼
每一個備份和恢復任務都是一個activity,在activity monitor一欄中可以監(jiān)控到它們。由任務監(jiān)視看出該任務的ID、執(zhí)行何種操作、狀態(tài)、返回值、Server和Client是誰、通過哪一個Policy和Schedule去執(zhí)行的。
具體可顯示多長時間的任務,要看NetBackup全局屬性中的設置。每個任務有以下幾個狀態(tài):
Queued 任務正在排隊
Active 任務正在執(zhí)行
Done 任務執(zhí)行完畢
在activity的執(zhí)行過程中,每一個任務結(jié)果都對應著一個狀態(tài)代碼,0代表成功,非0代表故障。返回值是一個非常有用的參數(shù),通過返回值,可以通過錯誤代碼查找手冊中建議的相關調(diào)整建議,這對于問題檢查和性能調(diào)整是非常有用的。頁面中獲取位置如下:
以下鏈接提供了NBU備份任務status code list:
https://www.veritas.com/content/support/en_US/doc/44037985-127664609-0/v15096675-127664609
根據(jù)獲取到的status code可以初步定位錯誤原因
使用Job details
與狀態(tài)碼類似,Job details與activity也是一對一;不同的是,Job details比狀態(tài)碼提供的信息更多,對于常見的故障,使用Job details可以完成故障的原因定位和排除。
雙擊一個activity,選擇detailed status,在status一欄即可獲取更多的細節(jié)信息。找到關鍵錯誤信息(通常是紅色字體或紅色字體的上下文),提煉出關鍵字,在google上搜索,互聯(lián)網(wǎng)上有大量的相同錯誤場景和解決辦法。
使用日志
以上使用狀態(tài)碼和Job details進行故障排除的辦法停留在初級階段,通常只對簡單故障有效;對于復雜問題,如果解決不了則需要搜集日志進行分析。
在NBU系統(tǒng)中,日志級別共分為6級,分別為0-5,以下為日志級別對應的要記錄的信息:
0:非常重要的少量診斷消息和調(diào)試消息
1:該級別增加詳細的診斷消息和調(diào)試消息
2:增加進度消息
3:增加提示性轉(zhuǎn)儲消息
4:增加功能進入和退出消息
5:最詳細的信息:記錄所有信息
日志等級調(diào)整方式如下:
1、console界面調(diào)整
2、vi /usr/openv/netbackup/bp.conf, 在末尾調(diào)加如下配置
VERBOSE = 5
NBU系統(tǒng)針對每一個進程都有一個獨立的目錄來存放,但是在默認情況下不創(chuàng)建,所有如果想要搜集這些日志,工程師需要手動創(chuàng)建這些目錄。目錄格式為/usr/openv/netbackup/logs/進程名;以bpcd程序為例,執(zhí)行以下命令創(chuàng)建子目錄:
mkdir /usr/openv/netbackup/logs/bpcd
或者使用NBU提供的批量創(chuàng)建腳本,一鍵創(chuàng)建所有日志目錄,執(zhí)行以下命令:
sh /usr/openv/netbackup/logs/mklogdir
在搜集日志時,NBU針對性地為每個進程創(chuàng)建一個日志子目錄,來實現(xiàn)進程級別的日志分析,那么我們需要先知道NBU常用的進程有哪些:
admin:管理命令。
bpbrm:NetBackup 備份和還原管理器。
bpcd:NetBackup client后臺駐留程序或管理器。
bpdm:NetBackup 磁盤管理器。
bpdbm:NetBackup 數(shù)據(jù)庫管理器。此進程僅在主服務器上運行。
bprd:NetBackup 請求管理器,對客戶機和備份、恢復、歸檔等管理請求作出響應。
vnetd:Veritas 網(wǎng)絡后臺駐留程序。
bpbackup:在UNIX client上,當用戶啟動備份時,此程序與主服務器上的bprd通信。
在獲取了日志之后,在各個文件中搜索fail、error、can not、freeze等關鍵字,進行故障原因定位
NBU常用維護命令
用命令行啟動netbackup服務進程
/usr/openv/netbackup/bin/bp.start_all
用命令行停止netbackup服務進程
/usr/openv/netbackup/bin/bp.kill_all
用命令行清除host緩存
/usr/openv/netbackup/bin/bpclntcmd -clear_host_cache # 清除緩存 cd /usr/openv/var/host_cache/ # 清除臨時文件 rm –rf tmp mkdir tmp mv * tmp
用命令行檢測master和client連通性
/usr/openv/netbackup/bin/admincmd/bptestbpcd -client client_hostname
若可以連通,返回結(jié)果類似如下:
NBU master server與NBU client 通信問題
在client和master server上互相telnet對方的備份管理平面IP的1556、1372、13782三個端口,確認client服務器與master server通信正常
netstat –an | grep 1556 netstat –an | grep 1372 netstat –an | grep 13782
檢查NBU服務及進程
/usr/openv/netbackup/bin/./bpps -x
Media server不是認證的主機
此為client上對media server的信任配置問題。在console上點擊host properties>client,找到故障客戶端,雙擊client,在彈出界面點擊servers一欄,在additional server配置中添加media server的主機名
存儲單元不可用
出現(xiàn)“存儲單元不可用”故障信息可能有以下幾種情況:
1、存儲單元已滿
2、此存儲單元上處于排隊狀態(tài)的備份任務過多
3、client與存儲單元歸屬的media server無法通信
想了解GuassDB(DWS)更多信息,歡迎微信搜索“GaussDB DWS”關注微信公眾號,和您分享最新最全的PB級數(shù)倉黑科技,后臺還可獲取眾多學習資料哦~
EI企業(yè)智能 Gauss AP 數(shù)據(jù)倉庫服務 GaussDB(DWS)
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。