微吼云上線多路互動直播服務 加速多場景互動直播落地
1394
2025-04-01
信息抽取三個最重要的子任務:
實體抽取:包括實體的檢測(find)和分類(classify)
關系抽取:三元組(triple) 抽取,一個謂詞(predicate)帶 2 個形參(argument),如 Founding-location(IBM, New York)
事件抽取:相當于一種多元關系的抽取
關系抽取任務場景:
有監督的關系抽取(Supervised Relation Extraction):針對預定義的關系集合,使用大規模的監督數據。
半監督的關系抽取(Semi-Supervised Relation Extraction):針對預定義的關系集合,使用相對較少的監督數據,在大量無監督數據的幫助下,能夠取得與有監督關系抽取類似的效果。
少次學習關系抽取(Few-Shot Relation Extraction):針對新的關系類型,通過在已有關系類型上的大規模數據預先訓練,再快速遷移到新關系類型的少量數據上,達到少次學習的目的。
自啟動關系抽取(Bootstrapping Relation Extraction):面向開放的關系場景,對于新的關系類型,僅給定少量的啟動樣本,以迭代的方式從大規模的數據中挖掘更多的信息,從而得到更加強大的關系抽取模型。
關系抽取任務的四點問題和改進:
數據規模問題 --> 遠程監督
學習能力問題 ?--> 少次學習(Few-shot learning)任務
少次學習問題僅為每種關系提供極少量樣例,要求盡可能提高測試樣例上的關系分類效果。
度量學習(Metric learning)、元學習(Meta learning)、參數預測(Parameter prediction)、原型網絡(Prototypical Networks)模型
復雜語境問題?-->?文檔級關系抽取
開放關系問題?-->?關系孿生網絡(Relation Siamese Network,RSN)
實現有監督和弱監督模式的自由切換,從而能夠同時利用預定義關系的有監督數據和開放文本中新關系的無監督數據,來共同學習不同關系事實的語義相似度。
Few-shot在關系抽取的應用:
few-shot關系抽取:根據查詢關系語句對一組候選關系語句進行排序和匹配。在此任務中,測試和開發集中的樣本通常是訓練集里沒有出現過的關系類型。這種類型我們一般會在FewRel數據集上進行評估。具體地說,給定K組有N個有標記的關系語句,Sk = {(r0, t0) . . . (rN , tN )},ti ∈ {1 . . . K } 代表對應的關系類型,目標是預測查詢關系語句rq的tq∈{1…K}。
2018的一篇文章[1]首次將Few-shot learning用于關系抽取中,并發布了一份大規模的FewRel數據集:
FewRel數據集覆蓋100種關系,每種關系700個實例。
測試集的關系只來源于支持集,且支持集和訓練集中的關系類別不重合。
N way K shot設定:即對于N種關系,每種關系的支持集中包含K個樣本。
圖中展示了FewRel數據集的例子:3 way 2 shot
[1] Han et al. 2018 FewRel: A Large-Scale Supervised Few-Shot Relation Classification Dataset with State-of-the-Art Evaluation.
團隊在2019又更新了FewRel任務[2]。FewRel 2.0,在原版數據集FewRel的基礎上增加了以下兩大挑戰:領域遷移(domain adaptation)和“以上都不是”檢測(none-of-the-above detection)。
領域遷移:FewlRel 2.0 采集了大量醫療領域的數據并進行標注,要求關系抽取模型在原語料進行訓練后,還可以在這些新領域語料上進行少次學習。
“以上都不是”檢測:FewRel 2.0 在原N-way K-shot設定(給定N個新類型,每個類型給定K個訓練樣本)上,添加了一個“以上都不是”選項。
[2] Gao et al. 2019 FewRel 2.0: Towards More Challenging Few-Shot Relation Classification.
Matching the Blanks [3]: 利用預訓練語言模型來學習度量
2019年提出的基于BERT的Matching the Blanks模型在FewRel1.0數據集上達到了state of art的效果。模型的兩個重要亮點:
按照一定概率(a = 0.7)來把句子中的實體替換為特殊標記 [BLANK],使模型對句子中除實體外的 context 信息進行建模。(Figure 1)
關系表示(相似性假設):如果兩個句子中包含相同的實體對,那么它們的關系表示應該盡可能相似,反之相似度應盡可能低。(Table 2)
假設能夠訪問一個文本語料庫,其中實體已鏈接到唯一標識符,并且我們將關系語句定義為包含兩個標記實體的文本塊。由此,我們創建包含關系語句的訓練數據,其中的實體已替換為特殊的[BLANK]符號,如圖1所示。訓練過程采用包含關系語句的(blank-完整)對,并且目標是,如果它們分布在相同的實體對上,則關系的編碼表示將是相似的。經過訓練后,將學習到的關系表示應用于最近發布的FewRel任務。(Figure 2)
Matching the Blanks模型在Few-shot任務中,修改了模型訓練的損失計算方式。如圖二,左右兩個框架是有監督和無監督關系分類模型的對比。有監督模型最后計算的損失為關系表示softmax的預測關系類別和樣本真正關系類別的交叉熵損失。對于few-shot任務,我們使用查詢語句的關系表示和每個候選語句之間的點積作為相似度得分,并用softmax(相似度得分)和樣本真正關系類別的交叉熵損失作為訓練損失。
模型在FewRel數據集上的表現:對比了Prot Net,Prot Net即為原型網絡,是一種基于metric-learning的方法,是Han et al.(2018)發表FewRel1.0數據集時,實驗得到的表現最好的模型。
[3] Soares et al. 2019 Matching the Blanks: Distributional Similarity for Relation Learning.
自然語言處理 NLP 知識圖譜 KG
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。