ACL2021 NER | 模塊化交互網絡用于命名實體識別
論文: Li Fei, Wang Zheng, Hui Siu Cheung, Liao Lejian, Song Dandan, Xu Jing, He Guoxiu, Jia Meihuizi. Modularized Interaction Network for Named Entity Recognition [A]. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) [C]. Online: Association for Computational Linguistics, 2021, 200–209.
鏈接:https://aclanthology.org/2021.acl-long.17.pdf
代碼:無
0、摘要
現有NER模型缺點
基于序列標注的NER模型:長實體識別不佳,只關注詞級信息
基于分段的NER模型:處理分段,而非單個詞,不能捕獲分段中的詞級依賴關系
邊界檢測和類型預測可以相互配合,兩個子任務可共享信息,相互加強
提出模塊化交互網絡模型MIN(Modularized Interaction Network)
同時利用段級信息和詞級依賴關系
結合一種交互機制,支持邊界檢測和類型預測之間的信息共享
三份基準數據集上達到SOTA
1、介紹
NER:查找和分類命名實體,person (PER), location
(LOC) or organization (ORG),下游任務:關系抽取、實體鏈接、問題生成、共引解析
兩類方法
序列標注 sequence labeling:可捕獲詞級依賴關系
分段 segment(a span of words):可處理長實體
NER:檢測實體邊界和命名實體的類型,
分成兩個子任務:邊界檢測、類型預測
兩個任務之間是相關的,可以共享信息
舉栗:xx來自紐約大學
如果知道大學是實體邊界,更可能會預測類型是ORG
如果知道實體有個ORG類型,更可能會預測到“大學”邊界
上述兩個常用方法沒有在子任務之間共享信息
序列標注:只把邊界和類型當做標簽
分段:先檢測片段,再劃分類型
本文提出MIN模型:NER模塊、邊界模塊、類型模塊、交互機制
指針網絡作為邊界模塊的解碼器,捕捉每個詞的段級信息
段級信息和詞級信息結合輸入到序列標注模型
將NER劃分成兩個任務:邊界檢測、類型預測,并使用不同的編碼器
提出一個相互加強的交互機制,所有信息融合到NER模塊
三個模塊共享單詞表示,采用多任務訓練
主要貢獻:
新模型:MIN,同時利用段級信息和詞級依賴
邊界檢測和類型預測分成兩個子任務,結合交互機制,使兩個子任務信息共享
三份基準數據集達到SOTA
2、方法
NER模塊:RNN-BiLSTM-CRF,引用Neural architectures for named entity recognition
詞表示:word(BERT) + char(BiLSTM)
BiLSTM編碼:雙向LSTM,交互機制代替直接級聯,門控函數動態控制
最終NER輸出:
H
N
E
R
=
W
T
[
H
;
H
B
;
H
T
;
H
S
]
+
b
H^{NER}=W^T[H;H^B;H^T;H^S] + b
HNER=WT[H;HB;HT;HS]+b
H
B
d
y
H^{Bdy}
HBdy表示邊界模塊輸出,
H
T
y
p
e
H^{Type}
HType表示類型模塊輸出,
H
S
e
g
H^{Seg}
HSeg表示分段信息
CRF解碼:轉移概率 + 發射概率
邊界模塊:雙向LSTM編碼
H
B
d
y
H^{Bdy}
HBdy,單向LSTM解碼
解碼:
s
j
=
h
j
?
1
B
d
y
+
h
j
B
d
y
+
h
j
+
1
B
d
y
s_j=h_{j-1}^{Bdy}+h_{j}^{Bdy}+h_{j+1}^{Bdy}
sj =hj?1Bdy +hjBdy +hj+1Bdy
d
j
=
L
S
T
M
(
s
j
,
d
j
?
1
)
d_j=LSTM(s_j, d_{j-1})
dj =LSTM(sj ,dj?1 )
Biaffine Attention機制:
類型模塊:BiLSTM + CRF
交互機制:
self attention 得到標簽增強的邊界
H
B
?
E
H^{B-E}
HB?E,類型
H
T
?
E
H^{T-E}
HT?E
Biaffine Attention 計算得分
α
B
?
E
\alpha^{B-E}
αB?E
交互后的邊界:
r
i
B
?
E
=
∑
j
=
1
n
α
i
,
j
B
?
E
h
j
T
?
E
r_i^{B-E}=\sum_{j=1}^{n}\alpha_{i,j}^{B-E}h_j^{T-E}
riB?E =∑j=1n αi,jB?E hjT?E
更新后的邊界:
h
 ̄
i
B
d
y
=
[
h
i
B
?
E
,
r
i
B
?
E
]
\overline{h}_i^{Bdy}=[h_i^{B-E},r_i^{B-E}]
hiBdy =[hiB?E ,riB?E ]
更新后的類型:
h
 ̄
i
T
y
p
e
=
[
h
i
T
?
E
,
r
i
T
?
E
]
\overline{h}_i^{Type}=[h_i^{T-E},r_i^{T-E}]
hiType =[hiT?E ,riT?E ]
聯合訓練:多任務
每個任務的損失函數
最終損失函數:
L
=
L
N
E
R
+
L
T
y
p
e
+
L
B
d
y
\mathcal{L}=\mathcal{L}^{NER}+\mathcal{L}^{Type}+\mathcal{L}^{Bdy}
L=LNER+LType+LBdy
3、結果
Baseline (sequence labeling-based)
CNN-BiLSTM-CRF
RNN-BiLSTM-CRF
ELMo-BiLSTM-CRF
Flair (char-BiLSTM-CRF)
BERT-BiLSTM-CRF
HCRA (CNN-BiLSTM-CRF)
Baseline (segment-based)
BiLSTM-Pointer
HSCRF
MRC+BERT
Biaffine+BERT
號外號外:想了解更多的AI技術干貨,歡迎上華為云的AI專區,目前有AI編程Python等六大實戰營供大家免費學習。
機器學習 知識圖譜 自然語言處理基礎 語言理解
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。