ModelArts自動學(xué)習(xí)實現(xiàn)中秋月餅分類
1013
2025-04-01
PAIR論文是建立在RocketQA基礎(chǔ)之上的,沿用了大部分RocketQA的優(yōu)化方案。主要研究的問題是在dual-encoder召回模型中,如何優(yōu)化pairwise損失函數(shù),使得正負answer樣本在embedding空間中產(chǎn)生距離,從而增強模型的區(qū)分度。
研究問題:
在文本相似度匹配領(lǐng)域中,如果兩個句子非常相似,但是兩個句子一個是肯定句,另一個是否定句,這個時候兩個文本的相似度應(yīng)該是一個非常低的值,文本相似度領(lǐng)域的研究者采取了很多手段達到這個效果。在文本搜索領(lǐng)域同樣由類似的問題,如圖2中所示,兩個句子的描述非常相似,但是句子的主體(H1N1和H5N1)不一樣,傳統(tǒng)的模型會將這兩個句子Embedding得比較相近(如圖1(a)所示),這會導(dǎo)致模型在使用階段,對這類文章之間區(qū)分度較低,會在一定程度上降低模型效果。
提出方案:
約束正負例的Embedding之間的距離:在傳統(tǒng)loss的基礎(chǔ)上,約束正負例之間的Embedding距離。但是模型沒有直接對正負例的Embeding做約束,而是通過約束正例與query之間的距離與正負例之間的距離,達到加大正負例之間Embedding距離的目的。
由于Loss將正負例之間的距離與query與正例之間的距離產(chǎn)生了聯(lián)系,模型將Dual-encoder中的query的encoder和passage的encoder做了參數(shù)共享,即query和passage在同一個Embedding空間中。
通過一個Corss-encoder Teacher Model做數(shù)據(jù)擴充:這部分跟RocketQA的做法基本一致。
兩階段訓(xùn)練:先使用擴充得到的偽標(biāo)注數(shù)據(jù),在Combined Loss上面進行預(yù)訓(xùn)練;然后在標(biāo)注數(shù)據(jù)+偽標(biāo)注數(shù)據(jù)上,使用傳統(tǒng)的loss(LQ)進行訓(xùn)練。
實驗及結(jié)論:
在MSMARCO和Natural Questions兩個數(shù)據(jù)集上面達到了高于RocketQA的效果。
Reference
[1] RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering
[2] PAIR: Leveraging Passage-Centric Similarity Relation for Improving Dense Passage Retrieval
[3] RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking
AI 機器學(xué)習(xí) 深度學(xué)習(xí)
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。