亚洲人成电影院在线观看,亚洲av无码国产精品色在线看不卡 ,亚洲国产精品无码久久久蜜芽

ElasticSearch Merge 機制和寫放大問題研究

網(wǎng)友投稿 1517 2022-05-28

背景：

ES在做Segment合并的時候，根據(jù)寫入模式和數(shù)據(jù)量，通常會有幾倍到十幾倍的寫放大。此處寫放大的定義是：磁盤寫入數(shù)據(jù)總量/最終生成索引的大小。ES通常有兩種類型的合并：NatureMerge和ForceMerge。NatureMerge是ES為了提升查詢性能、回收刪除Doc，在后臺定期調度的merge操作。對索引的任何增刪改操作都有可能觸發(fā)NatureMerge。而ForceMerge是指在一次導入大批量數(shù)據(jù)后，由運維人員手動觸發(fā)的merge操作，目的是減少segment數(shù)量，提升查詢性能。ForceMerge由于是人工觸發(fā)，通常預設當前無查詢流量，所以過程比較激進，例如默認會merge成一個segment。

ES Merge過程解析

ES Merge過程可以視為一個典型的生產(chǎn)者-消費者模式。首先由MergePolicy根據(jù)一系列算法生成一個MergeSpecification對象。其次由MergeScheduler 執(zhí)行這個MergeSpecification。

MergePolicy類圖如上所示，當前ES/Lucene的默認Merge策略是TieredMergePolicy。具體算法流程解析稍后給出。在基類中的findMerges/findForcedMerges分別對應前述的NatureMerge和ForceMerge過程。

MergeScheduler的類圖如上所示，ES/Lucene默認實現(xiàn)為ConcurrentMergeScheduler。在Lucene層面，如果用戶不想觸發(fā)Merge，可以把默認MergePolicy和MergeScheduler分別指定為NoMergePolicy和NoMergeScheduler。但是ES目前并不開放這個配置。

分層Nature合并：

在前文中提到ES/Lucene的默認merge策略是TieredMergePolicy，即分層Merge。注意此處層只是一個按Segment大小劃分的邏輯概念，在文件系統(tǒng)和ES架構中不同層的索引并無本質區(qū)別。分層Merge主流程主要分三步：

1.???? 根據(jù)分層算法和deletesPctAllowed配置推導出本次Merge完成后AllowedSegCount和AllowedDelCount。這兩個值是后續(xù)循環(huán)中止條件。分層算法的邏輯非常簡單：比如當前索引總量為20M，AllowedSegCount為10個（10*2M）。當前索引總量為220M，AllowedSegCount為20個（20M*10 + 2M*10）。依此類推。

2.???? 滑動窗口算法尋找OneMerge對象。如下圖所示：對候選Segments按大小排序，通過一個滑動窗口從左往右滑動。窗口包含的Segment數(shù)從1開始，最大不超過maxMergeAtOnce（默認10）。同時窗口內的SegmentSize總和不超過maxMergedSegmentByte（默認5G）。

3.???? 對第二步選出來的OneMerge對象進行打分（分數(shù)越低越優(yōu)）。打分考慮如下三個因素，考慮權重依次降低：

a)???? 選中Segment的大小平均度，越平均越好

b)???? 選中Segment中可回收Doc的比率，越高越好。

c)????? 選中SegmentByte總和，越小越好

分層Force合并

由于Force合并是手工觸發(fā)，并不考慮當前服務吞吐和延遲。所以策略比Nature合并簡單粗暴很多。

1.???? 首先看當前Segment總數(shù)

2.???? 如果上述條件不滿足，則依舊采用滑動窗口算法。但是和Nature合并相反，F(xiàn)orce合并是從右向左滑動。窗口的初始值為2，不超過maxMergeAtOnceExplicit，并且窗口內SegmentSize總和不超過maxMergedSegmentByte。

ConcurrentMergeScheduler執(zhí)行過程

ConcurrentMergeScheduler實際上是對一個后臺線程池的封裝。當設備硬件為傳統(tǒng)磁盤時，啟動1個線程。當年設備硬件為SSD固態(tài)硬盤時，啟動的線程數(shù)為max(1, min(4, core/2))。同時工作的MergeCount = ThreadCount + 5。ConcurrentMergeScheduler執(zhí)行流程如下圖所示：

由上圖可知，整個流程其實就是對線程池的調用，虛線部分表示這是一個線程池Push的異步操作，并不需要等待merge工作實際完成。整個Merge過程實際上分四步，分別是mergeInit，mergeMiddle，mergeSuccess和mergeFinish。實際干活的事情都在mergeMiddle中實現(xiàn)。MergeMiddle借助SegmentMerger封裝，對FieldInfo、倒排、正排等索引結構做依次Merge。Merge過程如下：

ElasticSearch Merge機制和寫放大問題研究

Lucene借助Codec的抽象，將索引處理流程和索引數(shù)據(jù)結構解耦開。右邊是Merge流程，左邊是每個數(shù)據(jù)結構對應的Codec。Codec中包含輸入數(shù)據(jù)的Consumer/Producer。分別負責生成索引和讀取索引。

小結

由上文可知，整個Lucene索引Merge的流程并不復雜。通過Policy/Scheduler將索引合并的描述MergeSpecification的生成和執(zhí)行解耦。開發(fā)者可以根據(jù)自己的業(yè)務場景需要，自由靈活的組裝。而Merge的實際工作MergeMiddle主要依賴SegmentMerger類實現(xiàn)。

附錄1：ES/Lucene對Merge寫放大有影響的參數(shù)

參數(shù)名

含義

默認值

備注

max_merge_at_once

一次普通merge可以參與的segment數(shù)量

max_merge_at_once_explicit

一次forcemerge可以參與的segment數(shù)量

推薦適度調大，可降低寫放大。

max_merged_segment_bytes

OneMerge產(chǎn)出的segment最大值

對于小規(guī)模索引夠用，對于海量索引數(shù)據(jù)推薦調大。如調為0則不觸發(fā)Nature Merge

附錄2：參考文獻

Lucene-8.6源碼：https://github.com/apache/lucene-solr

Lucene官方API文檔：https://lucene.apache.org/core/8_6_2/core/index.html

Solar官方文檔： https://lucene.apache.org/solr/guide/8_6/

http://blog.mikemccandless.com/2011/02/visualizing-lucenes-segment-merges.html

云搜索服務 CSS

【小資說庫】第13期應用程序開發(fā)人員、DBA和DBMS開發(fā)人員的分工是怎樣的？

1517 2022-05-28

Binder 機制】AIDL 分析 ( AIDL 通信完整流程梳理 )">【Binder 機制】AIDL 分析 ( AIDL 通信完整流程梳理 )

1517 2022-05-28

初識 ElastricSearch">初識 ElastricSearch

1517 2022-05-28

ElasticSearch Merge 機制和寫放大問題研究

【小資說庫】第13期應用程序開發(fā)人員、DBA和DBMS開發(fā)人員的分工是怎樣的？

Binder 機制】AIDL 分析 ( AIDL 通信完整流程梳理 )">【Binder 機制】AIDL 分析 ( AIDL 通信完整流程梳理 )

初識 ElastricSearch">初識 ElastricSearch

推薦文章

企業(yè)生產(chǎn)管理是什么，企業(yè)生產(chǎn)管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統(tǒng)哪個簡單好用？進銷存系統(tǒng)優(yōu)點

工廠生產(chǎn)管理（工廠生產(chǎn)管理流程及制度）

生產(chǎn)管理軟件，機械制造業(yè)生產(chǎn)管理，制造業(yè)生產(chǎn)過程管理軟件

進銷存軟件和ERP有什么區(qū)別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統(tǒng)？

數(shù)據(jù)庫訂單管理系統(tǒng)有哪些功能？數(shù)據(jù)庫訂單管理系統(tǒng)怎么設計？

什么是數(shù)據(jù)庫管理系統(tǒng)？

最近發(fā)表

熱評文章

零代碼開發(fā)是什么？2022低代碼平臺排行榜">零代碼開發(fā)是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統(tǒng)（智慧進銷存）">智能進銷存庫存管理系統(tǒng)（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

系統(tǒng)的功能有哪些？餐飲服務系統(tǒng)的構成及工作程序">連鎖餐飲管理系統(tǒng)的功能有哪些？餐飲服務系統(tǒng)的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接

ElasticSearch Merge機制和寫放大問題研究

Binder 機制】AIDL 分析 ( AIDL 通信完整流程梳理 )">【Binder 機制】AIDL 分析 ( AIDL 通信完整流程梳理 )

初識ElastricSearch">初識ElastricSearch

推薦文章

最近發(fā)表

熱評文章

零代碼開發(fā)是什么？2022低代碼平臺排行榜">零代碼開發(fā)是什么？2022低代碼平臺排行榜

進銷存庫存管理系統(tǒng)（智慧進銷存）">智能進銷存庫存管理系統(tǒng)（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

系統(tǒng)的功能有哪些？餐飲服務系統(tǒng)的構成及工作程序">連鎖餐飲管理系統(tǒng)的功能有哪些？餐飲服務系統(tǒng)的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接

ElasticSearch Merge 機制和寫放大問題研究

初識 ElastricSearch">初識 ElastricSearch