ACL2021 NER | 模块化交互网络用于命名实体识别

网友投稿 649 2022-05-29

论文: Li Fei, Wang Zheng, Hui Siu Cheung, Liao Lejian, Song Dandan, Xu Jing, He Guoxiu, Jia Meihuizi. Modularized Interaction Network for Named Entity Recognition [A]. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) [C]. Online: Association for Computational Linguistics, 2021, 200–209.

链接:https://aclanthology.org/2021.acl-long.17.pdf

代码:无

0、摘要

现有NER模型缺点

基于序列标注的NER模型:长实体识别不佳,只关注词级信息

基于分段的NER模型:处理分段,而非单个词,不能捕获分段中的词级依赖关系

边界检测和类型预测可以相互配合,两个子任务可共享信息,相互加强

提出模块化交互网络模型MIN(Modularized Interaction Network)

同时利用段级信息和词级依赖关系

结合一种交互机制,支持边界检测和类型预测之间的信息共享

三份基准数据集上达到SOTA

1、介绍

NER:查找和分类命名实体,person (PER), location

(LOC) or organization (ORG),下游任务:关系抽取、实体链接、问题生成、共引解析

两类方法

序列标注 sequence labeling:可捕获词级依赖关系

分段 segment(a span of words):可处理长实体

NER:检测实体边界和命名实体的类型,

分成两个子任务:边界检测、类型预测

两个任务之间是相关的,可以共享信息

举栗:xx来自纽约大学

如果知道大学是实体边界,更可能会预测类型是ORG

如果知道实体有个ORG类型,更可能会预测到“大学”边界

上述两个常用方法没有在子任务之间共享信息

序列标注:只把边界和类型当做标签

分段:先检测片段,再划分类型

本文提出MIN模型:NER模块、边界模块、类型模块、交互机制

指针网络作为边界模块的解码器,捕捉每个词的段级信息

段级信息和词级信息结合输入到序列标注模型

将NER划分成两个任务:边界检测、类型预测,并使用不同的编码器

提出一个相互加强的交互机制,所有信息融合到NER模块

三个模块共享单词表示,采用多任务训练

主要贡献:

新模型:MIN,同时利用段级信息和词级依赖

边界检测和类型预测分成两个子任务,结合交互机制,使两个子任务信息共享

三份基准数据集达到SOTA

2、方法

NER模块:RNN-BiLSTM-CRF,引用Neural architectures for named entity recognition

词表示:word(BERT) + char(BiLSTM)

BiLSTM编码:双向LSTM,交互机制代替直接级联,门控函数动态控制

最终NER输出:

H

N

E

R

=

ACL2021 NER | 模块化交互网络用于命名实体识别

W

T

[

H

;

H

B

;

H

T

;

H

S

]

+

b

H^{NER}=W^T[H;H^B;H^T;H^S] + b

HNER=WT[H;HB;HT;HS]+b

H

B

d

y

H^{Bdy}

HBdy表示边界模块输出,

H

T

y

p

e

H^{Type}

HType表示类型模块输出,

H

S

e

g

H^{Seg}

HSeg表示分段信息

CRF解码:转移概率 + 发射概率

边界模块:双向LSTM编码

H

B

d

y

H^{Bdy}

HBdy,单向LSTM解码

解码:

s

j

=

h

j

1

B

d

y

+

h

j

B

d

y

+

h

j

+

1

B

d

y

s_j=h_{j-1}^{Bdy}+h_{j}^{Bdy}+h_{j+1}^{Bdy}

sj =hj−1Bdy +hjBdy +hj+1Bdy

d

j

=

L

S

T

M

(

s

j

,

d

j

1

)

d_j=LSTM(s_j, d_{j-1})

dj =LSTM(sj ,dj−1 )

Biaffine Attention机制:

类型模块:BiLSTM + CRF

交互机制:

self attention 得到标签增强的边界

H

B

E

H^{B-E}

HB−E,类型

H

T

E

H^{T-E}

HT−E

Biaffine Attention 计算得分

α

B

E

\alpha^{B-E}

αB−E

交互后的边界:

r

i

B

E

=

j

=

1

n

α

i

,

j

B

E

h

j

T

E

r_i^{B-E}=\sum_{j=1}^{n}\alpha_{i,j}^{B-E}h_j^{T-E}

riB−E =∑j=1n αi,jB−E hjT−E

更新后的边界:

h

i

B

d

y

=

[

h

i

B

E

,

r

i

B

E

]

\overline{h}_i^{Bdy}=[h_i^{B-E},r_i^{B-E}]

hiBdy =[hiB−E ,riB−E ]

更新后的类型:

h

i

T

y

p

e

=

[

h

i

T

E

,

r

i

T

E

]

\overline{h}_i^{Type}=[h_i^{T-E},r_i^{T-E}]

hiType =[hiT−E ,riT−E ]

联合训练:多任务

每个任务的损失函数

最终损失函数:

L

=

L

N

E

R

+

L

T

y

p

e

+

L

B

d

y

\mathcal{L}=\mathcal{L}^{NER}+\mathcal{L}^{Type}+\mathcal{L}^{Bdy}

L=LNER+LType+LBdy

3、结果

Baseline (sequence labeling-based)

CNN-BiLSTM-CRF

RNN-BiLSTM-CRF

ELMo-BiLSTM-CRF

Flair (char-BiLSTM-CRF)

BERT-BiLSTM-CRF

HCRA (CNN-BiLSTM-CRF)

Baseline (segment-based)

BiLSTM-Pointer

HSCRF

MRC+BERT

Biaffine+BERT

号外号外:想了解更多的AI技术干货,欢迎上华为云的AI专区,目前有AI编程Python等六大实战营供大家免费学习。

机器学习 知识图谱 自然语言处理基础 语言理解

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:《Word/Excel/PPT 2019完全自学教程 : 视频讲解版 》 —2.7.2 插入编号
下一篇:【云小课】应用平台第36课 部门太多 ,资产共享复杂?教你如何搭建企业资产开放中台
相关文章