百度 RocketQA系列 搜索技術論文解析（三）

網友投稿 1121 2022-05-30

傳統的搜索通常將召回和精排兩個階段分開進行，本文提出了一個聯合訓練模型，將召回模型（Retriever）看做精排模型（Re-ranker）的蒸餾，從而將兩個模型一起聯合訓練。并據此想法提出了名為動態列表蒸餾（dynamic listwise distillation）的方法，來適應排序模型與傳統模型的不同。另一方面，在RocketQA的數據增強手段基礎上，提出了混合數據增強的方法。最終實驗結果表明，RocketQAv2在召回和精排兩個模型上都達到了state-of-art的效果。

研究問題：

如何將召回模型和精排模型聯合訓練：傳統模型的聯合訓練通常依靠參數共享、加權聯合loss等方式進行，但是召回模型與精排模型有著不同的訓練范式。一般而言，召回模型采用listwise的方式進行訓練，每個batch內對每一個query進行盡可能多的負采樣，而精排模型一般采用pointwise或者pairwise的方式進行訓練，batch內只對query進行一個采樣或者一對正負采樣。

提出方案；

動態列表蒸餾（dynamic listwise distillation）：針對精排模型（Re-ranker），每個batch內，對query采樣一個正樣本和一組負樣本，采取有監督多分類的loss進行優化；針對召回模型（Retriever），將召回模型看做精排模型的蒸餾，采用KL散單對召回模型進行優化。

百度RocketQA系列搜索技術論文解析（三）

混合數據增強（hybrid data augmentation）：訓練過程中，為了得到盡可能多的偽標注數據，使用RocketQA的召回模型對語料生成大量偽標注數據，在其中采用RocketQA的精排模型對生成的偽標注數據進行降噪（僅采用得分非常高的正例和得分非常低的負例），混合使用未降噪偽標注數據和降噪的未標注數據。

訓練過程：采用訓練好的RocketQA的召回模型（Retriever）和精排模型（Re-ranker）對RocketQAv2的模型進行初始化，使用上述混合數據增強策略與基于KL散度的動態列表蒸餾Loss對模型進行fine-tuning。

實驗及結論：

同樣在MSMARCO和Natural Questions數據集上進行實驗，效果超過RocketQA。

Reference

[1] RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering

[2] PAIR: Leveraging Passage-Centric Similarity Relation for Improving Dense Passage Retrieval

[3] RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking

機器學習

標簽：百度 Rocket 系列搜索

elasticsearch入門 系列">elasticsearch入門 系列

1121 2022-05-30

深入淺出etcd系列】3. 日志同步">【深入淺出etcd系列】3. 日志同步

1121 2022-05-30

Kubernetes 系列四：談 Kubernetes 的架構設計與實現原理">Kubernetes 系列四：談 Kubernetes 的架構設計與實現原理

1121 2022-05-30

百度 RocketQA系列 搜索技術論文解析（三）

elasticsearch入門 系列">elasticsearch入門 系列

深入淺出etcd系列】3. 日志同步">【深入淺出etcd系列】3. 日志同步

Kubernetes 系列四：談 Kubernetes 的架構設計與實現原理">Kubernetes 系列四：談 Kubernetes 的架構設計與實現原理

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接

百度RocketQA系列搜索技術論文解析（三）

elasticsearch入門系列">elasticsearch入門系列

深入淺出etcd系列】3. 日志同步">【深入淺出etcd系列】3. 日志同步

Kubernetes系列四：談 Kubernetes 的架構設計與實現原理">Kubernetes系列四：談 Kubernetes 的架構設計與實現原理

推薦文章

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接

百度 RocketQA系列搜索技術論文解析（三）

Kubernetes 系列四：談 Kubernetes 的架構設計與實現原理">Kubernetes 系列四：談 Kubernetes 的架構設計與實現原理