記一次 線上k8s節點維護

網友投稿 1028 2022-05-29

記一次線上k8s節點維護

一背景

收到測試環境集群告警，登陸K8s集群進行。

二故障定位

2.1 查看pod

查看kube-system node2節點calico pod異常

查看詳細信息,查看node2節點沒有存儲空間，cgroup泄露

2.2 查看存儲

登陸node2查看服務器存儲信息，目前空間還很充足

集群使用到的分布式存儲為ceph，因此查看ceph集群狀態

三操作

3.1 ceph修復

目前查看到ceph集群異常，可能導致node2節點cgroup泄露異常，進行手動修復ceph集群。

數據的不一致性（inconsistent）指對象的大小不正確、恢復結束后某副本出現了對象丟失的情況。數據的不一致性會導致清理失敗（scrub error）。 CEPH在存儲的過程中，由于特殊原因，可能遇到對象信息大小和物理磁盤上實際大小數據不一致的情況，這也會導致清理失敗。

由圖可知，pg編號1.7c 存在問題，進行修復。

pg修復

ceph pg repair 1.7c

進行修復后，稍等一會，再次進行查看，ceph集群已經修復

3.2 進行pod修復

對異常pod進行刪除，由于有控制器，會重新拉起最新的pod

查看pod還是和之前一樣，分析可能由于ceph異常，導致node2節點cgroup泄露，網上檢索重新編譯

Google一番后發現與https://github.com/rootsongjc/kubernetes-handbook/issues/313 這個同學的問題基本一致。

記一次線上k8s節點維護

存在的可能有，

Kubelet 宿主機的 Linux 內核過低 - Linux version 3.10.0-862.el7.x86_64

可以通過禁用kmem解決

查看系統內核卻是低版本

3.3 故障再次定位

最后，因為在啟動容器的時候runc的邏輯會默認打開容器的kmem accounting，導致3.10內核可能的泄漏問題

在此需要對no space left的服務器進行 reboot重啟，即可解決問題，出現問題的可能為段時間內刪除大量的pod所致。

初步思路，可以在今后的集群管理匯總，對服務器進行維修，通過刪除節點，并對節點進行reboot處理

3.4 對node2節點進行維護

kubectl cordon node02

kubectl drain node02 --delete-local-data --ignore-daemonsets --force

–delete-local-data 刪除本地數據，即使emptyDir也將刪除；

–ignore-daemonsets 忽略DeamonSet，否則DeamonSet被刪除后，仍會自動重建；

–force 不加force參數只會刪除該node節點上的ReplicationController, ReplicaSet, DaemonSet,StatefulSet or Job，加上后所有pod都將刪除；

目前查看基本node2的pod均已剔除完畢

此時與默認遷移不同的是，pod會先重建再終止，此時的服務中斷時間=重建時間+服務啟動時間+readiness探針檢測正常時間，必須等到1/1 Running服務才會正常。因此在單副本時遷移時，服務終端是不可避免的。

重啟后node02已經修復完成。

對node02進行恢復

恢復node02可以正常調度

kubectl uncordon node02

四反思

后期可以對部署k8s 集群內核進行升級。

集群內可能pod的異常，由于底層存儲或者其他原因導致，需要具體定位到問題進行針對性修復。

參考鏈接

https://blog.csdn.net/yanggd1987/article/details/108139436

標簽：一次線上節點

XML DOM 節點樹">XML DOM 節點樹

1028 2022-05-29

線上 開工 | 最全面的高效遠程辦公指南">線上 開工 | 最全面的高效遠程辦公指南

1028 2022-05-29

WPS2019表格鼠標滾動怎么設置（wps表格左右滾動條設置）">WPS2019表格鼠標滾動怎么設置（wps表格左右滾動條設置）

1028 2022-05-29

記一次 線上k8s節點維護

XML DOM 節點樹">XML DOM 節點樹

線上 開工 | 最全面的高效遠程辦公指南">線上 開工 | 最全面的高效遠程辦公指南

WPS2019表格鼠標滾動怎么設置（wps表格左右滾動條設置）">WPS2019表格鼠標滾動怎么設置（wps表格左右滾動條設置）

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數字化管理模式：提升品質、智能化和個性化的未

智能定制家居管理系統：重新定義家庭生活方式

友情鏈接