KubeCon 2019 中國 - 參會主題分享
轉載:https://bingohuang.com/kubecon-2019-china/
6.24-6.26 參加了 KubeCon 2019 中國大會,收獲頗豐,摘選我參加過個人認為還不錯的主題,分享如下。
1. 真實世界架構 - 構建全球跨云監控平臺 - Dominic Green,Improbable;Yifan Zhao,Improbable
簡介:Prometheus 支持我們輕松監控在 Kubernetes 集群內運行的應用和基礎設施。只需幾臺服務器,配置和運行都輕而易舉。開始擴展時,您可以采用新策略,例如聯合和元監控,以確保獲得所需的全部指標。但是當您擴展超越單個集群時會發生什么?當您擴展超越單個云提供商時又會發生什么?
在本次演講中,您將了解 Improbable 如何能成功擴展指標平臺,達到全球規模。Prometheus 是我們平臺的堅實基礎,Thanos 是一個 OSS 項目,可確保 Prometheus 抓取工具的全球查詢和高可用性。通過添加 Envoy,我們可以解鎖跨集群、跨云通信,支持我們的工程師全面監控我們遍布全球的平臺。
625-真實世界架構 - 構建全球跨云監控平臺 - Dominic Green,Improbable;Yifan Zhao,Improbable.pdf
2. 阿里巴巴使用高可用性+可擴展 Prometheus 和 Thanos - Guo'an Qin,阿里巴巴;Tao Li,阿里巴巴
簡介:阿里巴巴集團正在使用 Kubernetes 來支持全球最大規模的電子商務業務。就可用性和可擴展性而言,如何提供可靠的細粒度監控和警報服務著實是一項挑戰。
在本次演講中,我們將分享基于開源項目 Prometheus 和 Thanos 開發具有高可用性和可擴展性的細粒度監控系統的經驗。該系統主要支持阿里巴巴的集群管理系統,后者每秒會生成 400 萬 TPS 和 1 萬個請求。
我們將探討以下主題。1)如何使用 Prometheus 支持大規模場景?2)如何使用 Thanos 實現低查詢延遲,從而解決多個 Prometheus 實例導致的數據查詢問題?3)我們從 Prometheus 和 Thanos 配置中汲取的經驗教訓,例如目標發現以及記錄和警報規則管理。
625-阿里巴巴使用高可用性+可擴展 Prometheus 和 Thanos - Guo'an Qin,阿里巴巴;Tao Li,阿里巴巴.pdf
3. 無服務器:在 7 天內建立一個擁有 1 億用戶的微信迷你程序 - Tinafang 和 Masonlu,騰訊
簡介: 微信提供了一個無處不在的移動應用平臺,擁有超過 9 億的月活躍用戶數和 100 萬注冊開發人員,可支持構建從電子商務到游戲以及銀行應用的所有內容。
我們將向您描述擁有 1 名工程師的客戶如何使用騰訊云無服務器平臺在 7 天內構建和部署 30 強微信迷你程序。目前,該程序的注冊用戶數已超過 1 億,月活躍用戶數達到 1200 萬。
我們將詳細介紹平臺如何支持客戶無需管理基礎設施或運營即可構建可靠、安全的高性能應用,同時無需管理服務器、基礎設施或運營即可將應用使用人數擴展到 1 億的技術細節(容器編排、功能冷啟動、應用性能和監控)。
625-Mason & Tina-Serverless云上最佳實踐,兩周開發出用戶過億的小程序v1.1 tina.pdf
4. 了解 Kubernetes Master 的可擴展性和性能 - Xingying Chen 和 Fansong Zeng,阿里巴巴
簡介:目前,Kubernetes 的規模上限是 5k 節點,因此您可能無法用它來管理像 10k 節點這樣的 web 級集群。
您是否想知道 Kubernetes 無法管理 5k 以上節點的性能瓶頸是什么?要想將其可擴展性提升至新水平,您應該先解決哪方面的問題?Etcd、apiserver 還是調度程序?
弄清這些問題是加速運行大型 kubernetes 集群的關鍵。在阿里巴巴,我們會遇到各種各樣的問題,比如隨著集群擴展,pod 創建變得極其緩慢。在本次演講中,我們將分享我們是如何進行各種基準測試和性能分析的。我們又是如何對主設備進行調整/微調,并將主設備的性能提升 100 倍以上。目前,我們運行 10K 節點 kubernetes 集群同運行 2k 節點集群一樣流暢。
625-了解 Kubernetes Master 的可擴展性和性能 - Xingying Chen 和 Fansong Zeng,阿里巴巴.pdf
5. 在 Web 級集群中動態調整 Pod 資源限制 - Cheng Wang 和 Xiaoyu Zhang,阿里巴巴
簡介:您是否曾想過如何為 Pod 設置完美的資源限制?如何在資源效率與應用 SLO 之間取得平衡?
在本次演講中,我們將分享阿里巴巴集團通過將不同 QoS 類別的 Pod 共置在同一節點上,在 Web 級集群中動態調整 Pod 資源限制(特別是在資源爭用期間)的實踐以及從中汲取的經驗教訓。
在生產集群中應用這一實踐后,我們將集群資源使用率提高了 14%~30%,尾部延遲(95%)提高了 76%~87%,TPS(每秒事務處理數)提高了 107%~163%。
大家可以借鑒我們的經驗,利用 Kubernetes 原生方法提高集群的資源利用率和應用性能。
625-在 Web 級集群中動態調整 Pod 資源限制 - Cheng Wang 和 Xiaoyu Zhang,阿里巴巴.pdf
6. 有效可靠地管理大規模 Kubernetes 集群 - 張勇和林志賢,螞蟻金服
簡介:隨著業務的增長,我們需要將 Kubernetets 部署到世界各地的多個數據中心。單個數據中心中就擁有超過數萬個節點。我們面臨的關鍵挑戰是如何高效、可靠地在數據中心內管理多個大規模 Kubernetes 集群。
在本次演講中,我們將分享實現大規模集群管理自動化的經驗和實踐。首先,我們將介紹全自動化節點生命周期管理,以及如何基于 NPD、Autoscaler 和自定義運算符自動發現和恢復節點故障。然后,我們將分享部署和升級 Kubernetes 集群的經驗和解決方案。最后,我們將分享基于 Prometheus 和運算符的風險防控系統,該系統可確保集群可靠性,具有自動故障檢測和隔離的能力。
625-有效可靠地管理大規模 Kubernetes 集群 - 張勇和林志賢,螞蟻金服.pdf
7. 電商巨頭的原生云遷移經驗 - 張磊 和Siyuy Wang,阿里巴巴
簡介:將像阿里巴巴這樣的全球電子商務巨頭遷移到云原生平臺絕非易事,這條道路漫長而又艱難,但卻十分值得。
在本次演講中,我們將從技術和社區的角度分享我們去年工作得出的經驗教訓,具體來說包括:
1.科技巨頭向云原生技術遷移有哪些主要障礙?
2.像阿里巴巴這樣的巨頭的主要技術缺陷是什么?我們如何解決這些問題(部分)?我們的方法有效嗎?
3.如果您的應用管理方式與組織中的 Kubernetes 完全不同,該怎么辦?提示:CRD 和 控制器
4.為什么可預測性對電子商務至關重要?Kubernetes 是否具有開箱可用的可預測性?如果沒有,為什么?如何解決這一問題(可能無解)?
5.如何驗證數千個節點集群中的可擴展性問題?
6.規模龐大的團隊能否與上游社區合作共贏?如何實現?
625-電商巨頭的原生云遷移經驗 - 張磊 和Siyuy Wang,阿里巴巴.pdf
8. Volcano: 在Kubernetes上運行AI/DL工作負載 - Da Ma, Huawei
簡介:Kubernetes發展初期主要為服務類工作負載提供了通用流程框架。但隨著它的普及,越來越多的用戶希望在Kubernetes上運行AI / DL工作負載,如TensorFlow、PyTorch等。在Kubernetes上運行這些工作負載時,需要幾個高級功能,如公平調度,隊列管理、作業管理(暫停/恢復)、數據管理等。本次演講將演示如何使用Volcano為Kubernetes帶來“Batch”能力。
625-Volcano-在Kubernetes上運行AI-DL工作負載 - Da Ma, Huawei.pdf
9. AIOps:利用 Prometheus 和 Istio 進行異常檢測 - Marcel Hild,紅帽
簡介:隨著 IT 運營變得更靈活、更復雜,提高運營效率和情報能力的需求也在不斷增長。利用 Prometheus 監控應用程序和 kubernetes 集群已經相當普遍。不過,為您的組織確定相關指標和閾值卻越來越難。
在本演講中,Marcel 將展示用于長期收集和存儲 Prometheus 采集的指標的工具。然后他會分析大量這些指標,以獲取趨勢和周期性信息,并預測給定指標的預期值。最后,他會將預測指標集成回監控和警示堆棧的 Prometheus,以啟用動態閾值化和異常檢測。
所有操作僅用開源工具完成,可利用 Istio 中的可用工具充分運行演示。
626-AIOps-利用 Prometheus 和 Istio 進行異常檢測-Marcel Hild-紅帽.pdf
10. Kubernetes Multicluster SIG - Shashidhara T D,華為和 Xun Pan,IBM
簡介:SIG-Multicluster 致力于解決與跨許多云提供商(所謂的混合云)和在眾多混合集群中部署的應用管理許多 Kubernetes 集群相關的常見挑戰。我們主要負責設計、探討、實施并維護與多集群管理和應用管理相關的 API、工具及文檔。這不僅包括集群聯合等有效的自動化方法,而且還包含采用批量工作流式持續部署系統(例如 Spinnaker 等)的方法。其中涉及這些系統及其他類似系統的獨立構建模塊(例如集群注冊表),以及在適當情況下建議的 Kubernetes 核心更改。
在簡介中,我們將向您概述我們目前正在積極研究的項目、參與其中的最佳方式及我們的未來計劃內容。
然后,我們將進行更深入的分析!最近,我們發布了我們最大項目的第二版 - Federation v2 即測試版,并收集了關于幾家不同公司如何及為何使用該解決方案來解決其特定多集群用例的用戶反饋意見。在這次探究會議中,我們將向您介紹此測試版本中的內容,以及我們對其實際使用情況的調查結果。
626-Kubernetes Multicluster SIG - Shashidhara T D,華為和 Xun Pan,IBM.pdf
參考資料:
https://kccncosschn19chi.sched.com
遷移 Kubernetes
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。