百度RocketQA系列搜索技術(shù)論文解析(二)

      網(wǎng)友投稿 1013 2025-04-01

      PAIR論文是建立在RocketQA基礎(chǔ)之上的,沿用了大部分RocketQA的優(yōu)化方案。主要研究的問題是在dual-encoder召回模型中,如何優(yōu)化pairwise損失函數(shù),使得正負answer樣本在embedding空間中產(chǎn)生距離,從而增強模型的區(qū)分度。


      研究問題:

      百度RocketQA系列搜索技術(shù)論文解析(二)

      在文本相似度匹配領(lǐng)域中,如果兩個句子非常相似,但是兩個句子一個是肯定句,另一個是否定句,這個時候兩個文本的相似度應(yīng)該是一個非常低的值,文本相似度領(lǐng)域的研究者采取了很多手段達到這個效果。在文本搜索領(lǐng)域同樣由類似的問題,如圖2中所示,兩個句子的描述非常相似,但是句子的主體(H1N1和H5N1)不一樣,傳統(tǒng)的模型會將這兩個句子Embedding得比較相近(如圖1(a)所示),這會導(dǎo)致模型在使用階段,對這類文章之間區(qū)分度較低,會在一定程度上降低模型效果。

      提出方案:

      約束正負例的Embedding之間的距離:在傳統(tǒng)loss的基礎(chǔ)上,約束正負例之間的Embedding距離。但是模型沒有直接對正負例的Embeding做約束,而是通過約束正例與query之間的距離與正負例之間的距離,達到加大正負例之間Embedding距離的目的。

      由于Loss將正負例之間的距離與query與正例之間的距離產(chǎn)生了聯(lián)系,模型將Dual-encoder中的query的encoder和passage的encoder做了參數(shù)共享,即query和passage在同一個Embedding空間中。

      通過一個Corss-encoder Teacher Model做數(shù)據(jù)擴充:這部分跟RocketQA的做法基本一致。

      兩階段訓(xùn)練:先使用擴充得到的偽標(biāo)注數(shù)據(jù),在Combined Loss上面進行預(yù)訓(xùn)練;然后在標(biāo)注數(shù)據(jù)+偽標(biāo)注數(shù)據(jù)上,使用傳統(tǒng)的loss(LQ)進行訓(xùn)練。

      實驗及結(jié)論:

      在MSMARCO和Natural Questions兩個數(shù)據(jù)集上面達到了高于RocketQA的效果。

      Reference

      [1] RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering

      [2] PAIR: Leveraging Passage-Centric Similarity Relation for Improving Dense Passage Retrieval

      [3] RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking

      AI 機器學(xué)習(xí) 深度學(xué)習(xí)

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

      上一篇:WPS表格輸入日期的方法步驟詳解(電腦wps表格輸入日期格式怎么改)
      下一篇:excel表格里加橫線一分為二的方法(excel表格里加直線一分為二)
      相關(guān)文章
      亚洲av片一区二区三区| 亚洲丁香婷婷综合久久| AV激情亚洲男人的天堂国语| 亚洲入口无毒网址你懂的| 亚洲婷婷综合色高清在线| 亚洲精品免费观看| 亚洲精选在线观看| 亚洲一区二区中文| 亚洲精品无码久久久久久久| 亚洲黄色一级毛片| 亚洲欧洲综合在线| 亚洲理论片在线中文字幕| 亚洲一级毛片免费看| 亚洲第一男人天堂| 亚洲精品无码久久久久A片苍井空| 亚洲欧好州第一的日产suv| 亚洲AV无码成人精品区日韩| 99亚洲精品卡2卡三卡4卡2卡| 成人亚洲网站www在线观看 | 亚洲人成网www| 久久精品国产亚洲AV无码娇色| 亚洲视频免费在线播放| 亚洲国产成人精品久久| 亚洲一区二区三区高清在线观看| 亚洲国产精品99久久久久久| 国产av无码专区亚洲av毛片搜| 久久久亚洲精品蜜桃臀 | 精品国产日韩久久亚洲| 亚洲欧美一区二区三区日产| jizzjizz亚洲日本少妇| 久久久久亚洲AV成人网人人软件| 亚洲精品国产字幕久久不卡| 亚洲天堂男人天堂| 亚洲AV无码一区二区三区人| 亚洲av永久无码一区二区三区| 亚洲国产综合精品一区在线播放| jlzzjlzz亚洲乱熟在线播放| 亚洲成A∨人片在线观看不卡| 在线电影你懂的亚洲| 亚洲 日韩 色 图网站| 国产亚洲精品欧洲在线观看|