DWS 線下集群重裝OS場景下重裝主機(jī)實(shí)施方案(dws是什么意思)
1.??? 適用場景
1) 當(dāng)GaussDB A節(jié)點(diǎn)硬件發(fā)生故障后無法修復(fù),界面上會(huì)出現(xiàn)12006告警。為了使服務(wù)快速地恢復(fù)正常,需要將發(fā)生故障的一個(gè)或多個(gè)節(jié)點(diǎn)更換為正常節(jié)點(diǎn)。
2) 本方案僅適用于線下產(chǎn)品。
3) 本方案僅適用于OS重裝后,主機(jī)置換場景。
4) OS未重裝場景,不在此文檔適用范圍內(nèi)。
2.??? 前提條件
1) GaussDB A集群安裝成功,且處于已啟動(dòng)狀態(tài)。
2) 準(zhǔn)備新的硬件服務(wù)器,新服務(wù)器的硬件條件(CPU,內(nèi)存,磁盤等)必須滿足GaussDB A安裝的基本要求,等同或者優(yōu)于被更換服務(wù)器的配置。
3) 新節(jié)點(diǎn)的root密碼需要與環(huán)境中其他節(jié)點(diǎn)的root密碼保持一致。
4) DN環(huán)的主、備實(shí)例不能同時(shí)損壞,DN環(huán)的主、從備實(shí)例不能同時(shí)損壞,DN環(huán)的備、從備實(shí)例不能同時(shí)損壞,即一個(gè)DN環(huán)中只能損壞一個(gè)實(shí)例。
5) GaussDB A集群內(nèi)至少存在一個(gè)狀態(tài)正常物理節(jié)點(diǎn)。
6) FusionInsight Manager主備管理節(jié)點(diǎn)不出現(xiàn)故障。
7) GaussDB A(除去要替換的節(jié)點(diǎn))如下實(shí)例,至少存在一個(gè)正常運(yùn)行的:
?CMServer
?CMAgent
?GTM
?Coordinator
8)對于靜默安裝補(bǔ)丁,或者單獨(dú)升級補(bǔ)丁的集群,必須確認(rèn)交付時(shí)或者補(bǔ)丁變更時(shí),已經(jīng)替換OMS節(jié)點(diǎn)MPPDB軟件包。
3.??? 注意事項(xiàng)
1) 更換故障節(jié)點(diǎn)中系統(tǒng)將關(guān)閉“自動(dòng)剔除故障CN”功能,完成后系統(tǒng)再次打開該功能。因此建議在開始更換前確認(rèn)故障的CN已經(jīng)被自動(dòng)剔除(即故障的CN狀態(tài)為Deleted),否則在更換過程中用戶執(zhí)行DDL會(huì)報(bào)錯(cuò)。
2) 如果被更換的主機(jī)上含有CN,在更換主機(jī)過程中CN狀態(tài)未變?yōu)镹ormal前,不能連接該CN執(zhí)行業(yè)務(wù)。
3) 用戶手動(dòng)在故障主機(jī)上配置的guc參數(shù)、pg_hba.conf配置的白名單會(huì)丟失,需要重新設(shè)置。
4) 更換節(jié)點(diǎn)可能導(dǎo)致服務(wù)異常,屬高危操作。
5) 在前一次更換結(jié)束后才能再次執(zhí)行更換。
6) 更換前不能鎖定GaussDB A集群。
7) 節(jié)點(diǎn)更換前需要檢查LVS安裝的主備主機(jī)的安裝包解壓的“l(fā)vs”目錄下是否存在root屬主的LVS安裝日志(默認(rèn)名稱為“gaussdb_loadbalance.log”)。
說明
檢查是否存在root屬主的LVS安裝日志,步驟如下:
1.以omm用戶身份登錄GaussDB A服務(wù)器。執(zhí)行source ${BIGDATA_HOME}/mppdb/.mppdbgs_profile命令啟動(dòng)環(huán)境變量。
2.進(jìn)入“l(fā)vs”目錄:
cd ${BIGDATA_HOME}/FusionInsight_MPPDB_*/install/FusionInsight-MPPDB-*/package/MPPDB/lvs/
如果存在root屬主的LVS安裝日志,則需要執(zhí)行如下命令修改其日志屬主為集群用戶:
sudo chown omm:wheel gaussdb_loadbalance.log
4.??? 對系統(tǒng)影響
重裝主機(jī)在操作前需要用戶先停止數(shù)據(jù)庫相關(guān)業(yè)務(wù),從而避免因數(shù)據(jù)庫業(yè)務(wù)干擾而產(chǎn)生升級失敗問題。操作過程會(huì)關(guān)閉白名單,禁止業(yè)務(wù)接入。
5.??? 準(zhǔn)備工作
5.1確認(rèn)新節(jié)點(diǎn)已配置操作系統(tǒng)
1)新節(jié)點(diǎn)上與集群其他節(jié)點(diǎn)安裝的OS為相同版本。
2)新節(jié)點(diǎn)的IP,例如192.168.10.10(下文涉及新節(jié)點(diǎn)ip,均以此為例)、HostName、OS編碼格式、磁盤分區(qū)與故障節(jié)點(diǎn)保持一致。
3)新老節(jié)點(diǎn)不能同時(shí)接入網(wǎng)絡(luò),請把老節(jié)點(diǎn)下電或者斷網(wǎng)。
4)如果用原主機(jī)進(jìn)行主機(jī)替換,不涉及老節(jié)點(diǎn)下電或者斷網(wǎng)操作。
5.2確認(rèn)集群處于Degraded狀態(tài)
步驟1 以omm用戶登錄GaussDB A集群的第一個(gè)正常的cn節(jié)點(diǎn)
步驟2 執(zhí)行以下命令,啟用環(huán)境變量
source ${BIGDATA_HOME}/mppdb/.mppdbgs_profile
步驟3 執(zhí)行以下命令,查看GaussDB A集群當(dāng)前狀態(tài)
cm_ctl query
步驟4 間隔5分鐘,再次查詢GaussDB A集群當(dāng)前狀態(tài)
cm_ctl query
步驟5 兩次查詢結(jié)果一致,且處于 “Degraded”狀態(tài),則表明MPPDB服務(wù)屬于故障狀態(tài)
[?? Cluster State?? ]
cluster_state? ??? :? Degraded
redistributing ???? : ?No
balanced ??????????? : ?No
步驟6 如果不滿足以上狀態(tài),則聯(lián)系華為工程師處理
5.3準(zhǔn)備前置配置文件
步驟1 確認(rèn)集群OMS主節(jié)點(diǎn)上的FusionInsight_SetupTool工具是否存在(一般為oms節(jié)點(diǎn)“/opt/FusionInsight_SetupTool/”)。如果不存在,則需要在Support上下載集群對應(yīng)版本的FusionInsight_SetupTool工具。
步驟2 完成配置文件(preinstall.ini、hostN.ini),具體配置如下:
g_hosts="192.168.10.10"????????????????????????????????????? -----需要替換主機(jī)的管理平面IP(必填)
g_user_name="root"?????????????????????????????????????????? -----執(zhí)行前置的用戶(默認(rèn)root)
g_port=22??????????????????????????????????????????????????? ----- SSH服務(wù)端口(默認(rèn)22)
g_parted=2? ?????????????????????????????????????????????????-----分區(qū)格式化參數(shù)(默認(rèn)2,強(qiáng)制格式化)
g_parted_conf="192.168.10.10:host0.ini;" ????????????????????-----節(jié)點(diǎn)分區(qū)信息(管理IP)
g_add_pkg=1????????????????????????????????????????????????? -----rpm補(bǔ)包參數(shù)(默認(rèn)1:安裝)
g_pkgs_dir="redhat-6.4:/media/"? ????????????????????????????----- RPM包的源目錄
g_log_file="/tmp/fi-preinstall.log"
g_debug=0??????????????????????????????????????????????????? -----調(diào)試模式
g_hostname_conf="192.168.10.10:192.168.20.10:host0; " ???????-----節(jié)點(diǎn)管理平臺(tái)IP地址、業(yè)務(wù)平面IP地址和主機(jī)名的對應(yīng)關(guān)系
g_swap_off=1???????????????????????????????????????????????? -----關(guān)閉swap分區(qū)(1關(guān)閉)
g_platform="x86_64"????????????????????????????????????????? -----平臺(tái)類型
5.4執(zhí)行preinstall
步驟1 進(jìn)入SetupTool工具目錄,例如/opt/FusionInsight_SetupTool/
cd /opt/FusionInsight_SetupTool
步驟2 執(zhí)行前置腳本
./setuptool.sh preinstall
Please enter cluster SSH password:??????????? #輸入root用戶的密碼
**FusionInsight PreInstall is starting...
**********************************
*****FusionInsight Preinstall*****
**********************************
***** Time:60s
***** Running:0
***** Success:10
***** Failure:0
***** Total:10
***** Schedule:100%
“preinstall”過程結(jié)束后,默認(rèn)會(huì)自動(dòng)繼續(xù)進(jìn)行“precheck”過程。如下所示:
===========FusionInsight PreCheck is starting...===========
[INFO] start checking each hosts.
[INFO] localhost: start parsing the configuration file.
[INFO] localhost: parse the configuration file success.
...***** Schedule:100%
==========Summary Output============
Environment check failed,you can get more information from /opt/FusionInsight_SetupTool/precheck/log/precheck_failed.log
You can get more information about the preinstall from /tmp/fi-preinstall.log and /tmp/diskmgt/autopart.log
步驟3 檢查格式化分區(qū)結(jié)果是否與配置的一致
df -h
6.??? 變更步驟
6.1關(guān)閉集群通信白名單
步驟 1? 現(xiàn)場實(shí)施人員知會(huì)并確認(rèn)用戶已完成數(shù)據(jù)庫業(yè)務(wù)停止操作。
步驟 2? 以omm用戶登錄第一個(gè)正常的CN節(jié)點(diǎn),執(zhí)行如下命令注釋用戶白名單
以默認(rèn)CN實(shí)例目錄/srv/BigData/mppdb/data1/coordinator為示例,現(xiàn)場需根據(jù)實(shí)際情況進(jìn)行調(diào)整。
source ${BIGDATA_HOME}/mppdb/.mppdbgs_profile
gs_ssh -c "hostname && if [ -f /srv/BigData/mppdb/data1/coordinator/pg_hba.conf ]; then cp -f /srv/BigData/mppdb/data1/coordinator/pg_hba.conf /srv/BigData/mppdb/data1/coordinator/pg_hba.conf_comment; fi "
gs_ssh -c "hostname && if [ -f /srv/BigData/mppdb/data1/coordinator/pg_hba.conf ]; then sed -i '/^[^#].*sha256.*/s/\(.*\)/#@#@#/g' /srv/BigData/mppdb/data1/coordinator/pg_hba.conf; fi "
gs_ssh -c "hostname && if [ -f /srv/BigData/mppdb/data1/coordinator/pg_hba.conf ]; then sed -i '/^[^#].*md5.*/s/\(.*\)/#@#@#/g' /srv/BigData/mppdb/data1/coordinator/pg_hba.conf; fi "
步驟 3? 以omm用戶登錄第一個(gè)正常的CN節(jié)點(diǎn),關(guān)閉MPPDB實(shí)例節(jié)點(diǎn)下的后臺(tái)訪問連接和應(yīng)用連接。具體操作如下:
source ${BIGDATA_HOME}/mppdb/.mppdbgs_profile
gs_ssh -c "ps ux |grep -w gsql |grep -v grep |awk '{print $2}' |xargs -r kill -9"
gs_ssh -c "ps ux |grep -w ap_agent |grep -v grep |awk '{print $2}' |xargs -r kill -9"
步驟 4? 以omm用戶登錄第一個(gè)正常的CN節(jié)點(diǎn),執(zhí)行如下命令重啟集群。
source ${BIGDATA_HOME}/mppdb/.mppdbgs_profile
cm_ctl stop && cm_ctl start
6.2修改重裝主機(jī)相關(guān)文件
步驟1 以omm用戶登錄主oms節(jié)點(diǎn)
步驟2 將node-replace.sh腳本拷貝到/home/omm目錄下
步驟3 執(zhí)行以下命令:
sh node-replace.sh –i hostname
其中hostname為待替換主機(jī)的主機(jī)名;
6.3重啟controller
步驟1 以omm用戶登錄主管理節(jié)點(diǎn)
步驟2 執(zhí)行以下命令,備份互信配置文件
cp ${BIGDATA_HOME}/om-server/om/etc/om/known_hosts ${BIGDATA_HOME}/om-server/om/etc/om/known_hosts.replace
步驟3 執(zhí)行以下命令,注釋文件中包含新節(jié)點(diǎn)主機(jī)名或者ip地址的行
vi ${BIGDATA_HOME}/om-server/om/etc/om/known_hosts
步驟4 執(zhí)行以下命令,重啟controller,使配置生效
sh ${CONTROLLER_HOME}/sbin/restart-controller.sh
6.4前臺(tái)頁面重裝主機(jī)
步驟1 登錄FusionInsight Manager
步驟2 單擊“主機(jī)”
步驟3 勾選待重裝主機(jī)前的復(fù)選框
步驟4 在“更多”選擇“重裝”
在彈出的確認(rèn)框中,輸入當(dāng)前登錄的用戶密碼確認(rèn)身份,單擊“確定”。
步驟5 在“重裝主機(jī)”對話框,勾選“清理數(shù)據(jù)”、“我確定重裝所選主機(jī),接受可能出現(xiàn)的服務(wù)故障、數(shù)據(jù)丟失等后果。”
步驟6 選擇“root”用戶并輸入密碼,單擊“確定”
界面提示“操作成功。”,單擊“完成”
6.5重建實(shí)例
請嚴(yán)格按照步驟描述執(zhí)行,不準(zhǔn)跳步,不準(zhǔn)并行
步驟1 以omm用戶登錄一個(gè)正常的數(shù)據(jù)節(jié)點(diǎn),執(zhí)行:
source /opt/huawei/Bigdata/mppdb/.mppdbgs_profile
步驟2 以nohup方式對要做重建的主機(jī)進(jìn)行config配置,其中hostname為要重建的主機(jī)名稱
nohup gs_replace -t config -h hostname? &
注意
步驟2執(zhí)行完成后,再執(zhí)行步驟3,不能同時(shí)執(zhí)行
通過如下命令確認(rèn)步驟2是否執(zhí)行完成,沒有進(jìn)程則為執(zhí)行完成
ps -ef|grep gs_replace | grep -v grep
步驟3 以nohup方式對要做重建的主機(jī)進(jìn)行數(shù)據(jù)重建,其中hostname為要重建的主機(jī)名稱
如果后臺(tái)沒有g(shù)s_replace,則執(zhí)行下面的命令,否則繼續(xù)等待
nohup gs_replace -t start -h hostname? &
注:該過程時(shí)間較長,可以通過6.6查看Build狀態(tài) 查看build進(jìn)度
6.6查看Build狀態(tài)
步驟1 以omm用戶登錄一個(gè)正常的數(shù)據(jù)節(jié)點(diǎn),執(zhí)行:
source /opt/huawei/Bigdata/mppdb/.mppdbgs_profile
步驟2 通過下面的命令查看Build的進(jìn)度
cm_ctl query -Cv |grep -i Build
6.7啟動(dòng)新增節(jié)點(diǎn)上的實(shí)例
步驟1 以omm用戶登錄第一個(gè)正常的CN節(jié)點(diǎn),執(zhí)行:
source /opt/huawei/Bigdata/mppdb/.mppdbgs_profile
步驟2 通過下面的命令查看做完Build的實(shí)例狀態(tài)
cm_ctl query -Cvd
如果實(shí)例的狀態(tài)從Building變成Normal,則跳過;
如果實(shí)例的狀態(tài)從Building變成Manuel Stopped,則繼續(xù)執(zhí)行步驟3;
步驟3 啟動(dòng)Manuel Stopped的實(shí)例
cm_ctl start
6.8均衡實(shí)例
步驟1 以omm用戶登錄第一個(gè)正常的CN節(jié)點(diǎn),執(zhí)行:
source /opt/huawei/Bigdata/mppdb/.mppdbgs_profile
步驟2 通過下面的命令檢查集群狀態(tài)為Normal,balanced狀態(tài)為No時(shí),執(zhí)行步驟3
cm_ctl query
步驟3 檢查主備追趕狀態(tài)
登錄第一個(gè)正常的CN節(jié)點(diǎn),連接數(shù)據(jù)庫
gsql -d postgres -p 25308 -r
查看追趕視圖
select * from pgxc_get_senders_catchup_time();
上述視圖結(jié)果為0 row時(shí),則執(zhí)行步驟4,否則繼續(xù)執(zhí)行步驟3,直到結(jié)果為0 row
步驟4 執(zhí)行主備均衡
cm_ctl switchover -a
步驟5 檢查集群狀態(tài)
cm_ctl query
如下則為正常
[?? Cluster State?? ]
cluster_state? :? Normal
redistributing : No
balanced?????? : Yes
注意
如果超過15min以上,仍然達(dá)不到上述狀態(tài),請聯(lián)系華為工程師。
6.9確認(rèn)結(jié)果
1)后臺(tái)集群狀態(tài)驗(yàn)證
步驟1 以omm用戶登錄GaussDB A集群的第一個(gè)正常的cn節(jié)點(diǎn)
步驟2 執(zhí)行以下命令,啟用環(huán)境變量
source ${BIGDATA_HOME}/mppdb/.mppdbgs_profile
步驟3 執(zhí)行以下命令,查看GaussDB A集群當(dāng)前狀態(tài)
cm_ctl query
如下則為正常
[?? Cluster State?? ]
cluster_state? :? Normal
redistributing : No
balanced?????? : Yes
2)前臺(tái)集群狀態(tài)驗(yàn)證
步驟1 登錄FusionInsight Manager
步驟2 單擊“集群”,選擇MPPDB,點(diǎn)擊實(shí)例
步驟3 組件MPPDBServer的“運(yùn)行狀態(tài)”顯示為“良好”狀態(tài)
3)客戶業(yè)務(wù)驗(yàn)證
步驟1 驗(yàn)證方案需包括DDL和DML語句
6.10恢復(fù)MPPDB軟件包
步驟1 以omm用戶登錄主oms節(jié)點(diǎn),進(jìn)入/home/omm目錄下
步驟2 執(zhí)行如下命令恢復(fù)MPPDB軟件包:
sh node-replace.sh –u hostname
其中hostname為待替換主機(jī)的主機(jī)名;
7.??? 常見問題
7.1 gs_checkos
步驟1 以root用戶登錄要替換的新節(jié)點(diǎn)
步驟2 執(zhí)行以下命令,啟用環(huán)境變量
source ${BIGDATA_HOME}/mppdb/.mppdbgs_profile
步驟3 執(zhí)行以下命令,設(shè)置OS參數(shù) hostname 替換為要置換節(jié)點(diǎn)的主機(jī)名
gs_checkos -i B -h hostname
步驟4 執(zhí)行以下命令,檢查OS參數(shù)
gs_checkos -i A -h hostname
EI企業(yè)智能 Gauss AP 數(shù)據(jù)倉庫服務(wù) GaussDB(DWS)
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。