2022wps怎么选2010office版本(怎么把2010office变成2019)
781
2022-05-29
论文:Zhang W, Hua W, Stratos K. EntQA: Entity Linking as Question Answering[J]. arXiv preprint arXiv:2110.02369, 2021.
链接:https://arxiv.org/pdf/2110.02369.pdf
代码:https://github.com/WenzhengZhang/EntQA
0、摘要
实体链接(EL)传统方法:先提及,后实体
局限性:不知道实体的情况下,先找提及,不自然
EntQA:用问答来解决实体链接
检索器:快速找出候选实体
阅读器:找到每个实体的提及
结合实体链接、开放域问答的进展,以及预训练模型方法,密集实体检索+阅读理解
不依赖<提及-候选>词典和大规模弱监督
1、介绍
EL的一般形式:抽取实体提及、链接提及到KG里面的实体
EL是自动文本理解任务的基建,应用于问答、信息检索、商业推荐系统等
EL的输出空间非常大,文档里的提及链接的候选实体通常是百万级
现有方法:EL 分成 提及检测 MD 和 实体消歧 ED,然后独立解决
1)MD → ED,以前的工作是假设提及被给定,跑现成的NER模型,抽取提及;
2)训练一个端到端的模型,联合执行,通过术搜索进行ED;
MD → ED:要求不知道相关实体的情况下,找到提及
提及的定义:实体的指称,先有的实体,后有的提及
span的抽取依赖第三方NER系统,错误传播(端到端模型缓解不了这个困境)
本文工作:ED → MD(翻转两个任务的顺序)
先找到文档中可能提到的候选实体,然后为每个实体找到其提及
困难:不知道图谱相关实体,找提及
容易:不知道实体提及,找相关实体
将问题看作是倒置的开放域QA
给定一个文档,使用一个双编码器检索器,检索top-K候选实体,作为“问题”
然后,使用一个深度交叉注意力阅读器,识别每个候选的提及,作为“答案区间”
必须预测未知数量的问题和答案,基于阈值解决
EntQA优势
可以利用密集实体搜索和开放域QA的最新进展(BLINK实体检索器、微调ELECTRA)
不依赖<提及-候选>词典
训练EntQA,数据高效,学术预算足够
2、方法
检索器(
FAQ
)
相似度得分 = 段落编码 * 实体编码
阅读器(
MRC
)
编码([CLS]段落[SEP]实体[SEP]),MRC模型,预测提及开始和结束位置
提及区间的概率
实体出现的概率
推理
1、检索top-K候选实体
2、每个候选实体,抽取top-P个候选提及区间
3、实体概率 * 区间概率,排序
3、结果
号外号外:想了解更多的AI技术干货,欢迎上华为云的AI专区,目前有AI编程Python等六大实战营供大家免费学习。
机器学习 知识图谱 自然语言处理基础
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。