ICLR 2022 EntQA | 實(shí)體鏈接看作問(wèn)答
論文:Zhang W, Hua W, Stratos K. EntQA: Entity Linking as Question Answering[J]. arXiv preprint arXiv:2110.02369, 2021.
鏈接:https://arxiv.org/pdf/2110.02369.pdf
代碼:https://github.com/WenzhengZhang/EntQA
0、摘要
實(shí)體鏈接(EL)傳統(tǒng)方法:先提及,后實(shí)體
局限性:不知道實(shí)體的情況下,先找提及,不自然
EntQA:用問(wèn)答來(lái)解決實(shí)體鏈接
檢索器:快速找出候選實(shí)體
閱讀器:找到每個(gè)實(shí)體的提及
結(jié)合實(shí)體鏈接、開放域問(wèn)答的進(jìn)展,以及預(yù)訓(xùn)練模型方法,密集實(shí)體檢索+閱讀理解
不依賴<提及-候選>詞典和大規(guī)模弱監(jiān)督
1、介紹
EL的一般形式:抽取實(shí)體提及、鏈接提及到KG里面的實(shí)體
EL是自動(dòng)文本理解任務(wù)的基建,應(yīng)用于問(wèn)答、信息檢索、商業(yè)推薦系統(tǒng)等
EL的輸出空間非常大,文檔里的提及鏈接的候選實(shí)體通常是百萬(wàn)級(jí)
現(xiàn)有方法:EL 分成 提及檢測(cè) MD 和 實(shí)體消歧 ED,然后獨(dú)立解決
1)MD → ED,以前的工作是假設(shè)提及被給定,跑現(xiàn)成的NER模型,抽取提及;
2)訓(xùn)練一個(gè)端到端的模型,聯(lián)合執(zhí)行,通過(guò)術(shù)搜索進(jìn)行ED;
MD → ED:要求不知道相關(guān)實(shí)體的情況下,找到提及
提及的定義:實(shí)體的指稱,先有的實(shí)體,后有的提及
span的抽取依賴第三方NER系統(tǒng),錯(cuò)誤傳播(端到端模型緩解不了這個(gè)困境)
本文工作:ED → MD(翻轉(zhuǎn)兩個(gè)任務(wù)的順序)
先找到文檔中可能提到的候選實(shí)體,然后為每個(gè)實(shí)體找到其提及
困難:不知道圖譜相關(guān)實(shí)體,找提及
容易:不知道實(shí)體提及,找相關(guān)實(shí)體
將問(wèn)題看作是倒置的開放域QA
給定一個(gè)文檔,使用一個(gè)雙編碼器檢索器,檢索top-K候選實(shí)體,作為“問(wèn)題”
然后,使用一個(gè)深度交叉注意力閱讀器,識(shí)別每個(gè)候選的提及,作為“答案區(qū)間”
必須預(yù)測(cè)未知數(shù)量的問(wèn)題和答案,基于閾值解決
EntQA優(yōu)勢(shì)
可以利用密集實(shí)體搜索和開放域QA的最新進(jìn)展(BLINK實(shí)體檢索器、微調(diào)ELECTRA)
不依賴<提及-候選>詞典
訓(xùn)練EntQA,數(shù)據(jù)高效,學(xué)術(shù)預(yù)算足夠
2、方法
檢索器(
FAQ
)
相似度得分 = 段落編碼 * 實(shí)體編碼
閱讀器(
MRC
)
編碼([CLS]段落[SEP]實(shí)體[SEP]),MRC模型,預(yù)測(cè)提及開始和結(jié)束位置
提及區(qū)間的概率
實(shí)體出現(xiàn)的概率
推理
1、檢索top-K候選實(shí)體
2、每個(gè)候選實(shí)體,抽取top-P個(gè)候選提及區(qū)間
3、實(shí)體概率 * 區(qū)間概率,排序
3、結(jié)果
號(hào)外號(hào)外:想了解更多的AI技術(shù)干貨,歡迎上華為云的AI專區(qū),目前有AI編程Python等六大實(shí)戰(zhàn)營(yíng)供大家免費(fèi)學(xué)習(xí)。
機(jī)器學(xué)習(xí) 知識(shí)圖譜 自然語(yǔ)言處理基礎(chǔ)
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。