Spark shuffle介紹:shuffle data生命周期

      網友投稿 1045 2022-05-28

      shuffle data持久化在磁盤上,如果一直不清理,磁盤容易被撐爆。那shuffle data什么時候會被清理呢。一般來說可以分成3種場景:

      Spark shuffle介紹:shuffle data生命周期

      1、spark application主動停止,需要清理該application下所屬的全部shuffle data。清理流程如下(本文均以未啟用external shuffle service,spark 2.x代碼為例):

      2、application存活,但某個階段的shuffle data不再需要,可以被刪除清理。這里核心是如何判斷某個shuffle data不再被需要。spark里是利用java的GC機制來判斷某個shuffle是否還需要使用。寬依賴會存在shuffle,在創建ShuffleDependency時會將該對象以弱引用的方式注冊在ContextCleaner,然后ContextCleaner周期性檢查該弱引用對象是否被GC回收了,如果回收說明該ShuffleDependency對象不再被依賴,即shuffle data不再被需要,可以被清理。為了避免一直未GC導致shuffle不被清理,ContextCleaner也會定期調用system.gc來建議GC。

      3、機器異常掉電的情況,application來不及執行主動關閉邏輯進行shuffle清理。這種一般依賴外圍的資源管理如yarn的清理機制,或者需要在外圍添加周期性檢查程序,清理非存活application的所有shuffle數據。

      EI企業智能 spark 智能數據 表格存儲服務 CloudTable

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:跟著唐老師學習AOS編排語言系列教程——共十六章
      下一篇:Bash腳本教程之啟動環境
      相關文章
      亚洲午夜在线播放| 亚洲六月丁香六月婷婷色伊人| 亚洲人成网站日本片| 亚洲无线电影官网| 久久亚洲精品无码aⅴ大香 | 亚洲AV无码专区在线播放中文| 亚洲午夜久久久久妓女影院| 亚洲一区二区三区AV无码| 亚洲色婷婷综合久久| 亚洲精品成人网站在线观看| 亚洲精品无码成人片久久| 亚洲成av人片在线观看无码不卡| 亚洲精品国产精品乱码不卡√| 亚洲精品乱码久久久久久| 亚洲国产美女精品久久久久∴| 亚洲成A∨人片在线观看不卡| 亚洲AV永久纯肉无码精品动漫| 亚洲av无码成h人动漫无遮挡| 亚洲天堂男人天堂| 亚洲第一精品电影网| 国产精品亚洲专区在线观看| 亚洲熟妇AV乱码在线观看| 亚洲人成人无码.www石榴 | 亚洲成av人在线视| 久久久无码精品亚洲日韩京东传媒| 久久亚洲美女精品国产精品| 亚洲视频一区在线观看| 亚洲人成网网址在线看| 亚洲乱亚洲乱妇24p| 国产av无码专区亚洲av毛片搜 | 亚洲精品国产成人| 亚洲av乱码一区二区三区香蕉| 中文有码亚洲制服av片| 校园亚洲春色另类小说合集| 亚洲熟女乱综合一区二区| 亚洲综合AV在线在线播放| 内射干少妇亚洲69XXX| 亚洲无mate20pro麻豆| 国产精品亚洲va在线观看| 综合久久久久久中文字幕亚洲国产国产综合一区首 | 亚洲成人影院在线观看|