請問WPS Word文檔打開每次提醒建議只讀怎么取消(請問男子110米欄有幾個欄)
1625
2022-05-30
概述
屬性抽取是構建知識圖譜的重要一環,其目的是從非結構化文本中抽取出實體的屬性以及屬性值。目前,屬性抽取的應用非常廣泛,既可以面向各垂直領域,如電商領域、影視領域、醫療領域等,通過抽取領域內相關實體的屬性及屬性值,來補全或構建領域知識圖譜;也可以將抽取出的屬性值作為關鍵字,輔助搜索任務。
1 屬性抽取任務
屬性抽取任務的定義是給定一個實體以及該實體的描述文本,從文本中抽取出與該實體相關的屬性及其屬性值。該任務的難點在于如何進行大規模屬性抽取以及從非結構化文本中發現新的屬性及屬性值。
由于該領域暫時沒有公開的權威數據集,且人工標注數據耗時耗力,研究人員通常采用遠程監督的方式標注數據,即利用三元組詞典標注出文本中的屬性及屬性值,將標注文本用于模型訓練。遠程監督標注的優點是成本低、速度快,缺點是容易漏標、錯標數據引入噪聲。
下面的例子展示了屬性抽取任務所需的數據文件格式,以及遠程監督得到的標注數據樣例。
例:
數據準備:實體、描述文本、三元組詞典
實體:衛衣
描述文本:休閑黑色衛衣真好看
三元組詞典:
<衛衣,風格,休閑>,<衛衣,風格,復古>
<衛衣,顏色,黑色>,<衛衣,材質,針織>
…
基于三元組的遠程監督標注結果:
屬性抽取的主要流程如下:
給定實體的描述文本以及實體的三元組詞典
基于三元組詞典對描述文本進行遠程監督標注,標注方式分為BIO/BMES/BIOES三種
使用標注數據訓練神經網路模型
利用訓練好的模型從文本中抽取相關的實體的屬性及其屬性值
2 相關方法
2.1 基于規則的方法
基于規則的方法主要以詞表匹配為主。當屬性值詞表覆蓋度較高時,可以基于詞表匹配的方式從文本中抽取屬性值。詞表匹配能快速抽取文本中實體的屬性及屬性值,但是詞表的構建與擴充依賴專家知識,構建高質量詞表耗時耗力,且只能抽取出詞表內包含的屬性值,無法從文本中發現新屬性值。
2.2 基于深度學習的方法
屬性抽取可以被抽象為序列標注問題,因此可以使用命名實體識別的相關模型,如Bi-LSTM-softmax、Bi-LSTM-CRF、BERT-CRF等。近年來,問答相關的模型也被應用于該領域,如基于片段式抽取的機器閱讀理解模型。
基于問答模型的輸入端是問答對的形式
3 屬性抽取VS命名實體識別
自然語言處理基礎
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。