ICLR 2022 EntQA | 实体链接看作问答

网友投稿 781 2022-05-29

论文:Zhang W, Hua W, Stratos K. EntQA: Entity Linking as Question Answering[J]. arXiv preprint arXiv:2110.02369, 2021.


ICLR 2022 EntQA | 实体链接看作问答

链接:https://arxiv.org/pdf/2110.02369.pdf

代码:https://github.com/WenzhengZhang/EntQA

0、摘要

实体链接(EL)传统方法:先提及,后实体

局限性:不知道实体的情况下,先找提及,不自然

EntQA:用问答来解决实体链接

检索器:快速找出候选实体

阅读器:找到每个实体的提及

结合实体链接、开放域问答的进展,以及预训练模型方法,密集实体检索+阅读理解

不依赖<提及-候选>词典和大规模弱监督

1、介绍

EL的一般形式:抽取实体提及、链接提及到KG里面的实体

EL是自动文本理解任务的基建,应用于问答、信息检索、商业推荐系统等

EL的输出空间非常大,文档里的提及链接的候选实体通常是百万级

现有方法:EL 分成 提及检测 MD 和 实体消歧 ED,然后独立解决

1)MD → ED,以前的工作是假设提及被给定,跑现成的NER模型,抽取提及;

2)训练一个端到端的模型,联合执行,通过术搜索进行ED;

MD → ED:要求不知道相关实体的情况下,找到提及

提及的定义:实体的指称,先有的实体,后有的提及

span的抽取依赖第三方NER系统,错误传播(端到端模型缓解不了这个困境)

本文工作:ED → MD(翻转两个任务的顺序)

先找到文档中可能提到的候选实体,然后为每个实体找到其提及

困难:不知道图谱相关实体,找提及

容易:不知道实体提及,找相关实体

将问题看作是倒置的开放域QA

给定一个文档,使用一个双编码器检索器,检索top-K候选实体,作为“问题”

然后,使用一个深度交叉注意力阅读器,识别每个候选的提及,作为“答案区间”

必须预测未知数量的问题和答案,基于阈值解决

EntQA优势

可以利用密集实体搜索和开放域QA的最新进展(BLINK实体检索器、微调ELECTRA)

不依赖<提及-候选>词典

训练EntQA,数据高效,学术预算足够

2、方法

检索器(

FAQ

相似度得分 = 段落编码 * 实体编码

阅读器(

MRC

编码([CLS]段落[SEP]实体[SEP]),MRC模型,预测提及开始和结束位置

提及区间的概率

实体出现的概率

推理

1、检索top-K候选实体

2、每个候选实体,抽取top-P个候选提及区间

3、实体概率 * 区间概率,排序

3、结果

号外号外:想了解更多的AI技术干货,欢迎上华为云的AI专区,目前有AI编程Python等六大实战营供大家免费学习。

机器学习 知识图谱 自然语言处理基础

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Laravel中用GuzzleHttp
下一篇:竞赛规则补充说明 | 无线节能组车模
相关文章