问答系统分类与对比

网友投稿 2460 2022-05-29

问答系统(Question Answering System)

一、基础概念

搜索引擎( Search Engine )

一种信息检索系统,旨在协助搜索存储在计算机系统中的信息。例:网络搜索引擎。——维基百科

问答系统( Question Answering System,QA System )

回答人提出的自然语言问题的系统。—— 肖仰华《知识图谱 概念与技术》

能够接受用户以自然语言形式描述的提问,并能从大量的异构数据中查找或推断出用户问题答案的信息检索系统。—— 宗成庆《统计自然语言处理

对话系统、聊天机器人、对话机器人( Dialog System )

能够以自然语言与人类进行会话的软件系统。——百度百科

机器人分类:

维度

任务型

问答型

闲聊型

定义

执行任务指令

问答系统

纯粹聊天

情感

理性

理性

感性

对话轮数

越少越好

单轮

越多越好

目标

完成具体任务

回答知识性问题

没有特定目标

举例

查天气、订机票

中国的首都在哪里

我今天心情不好

二、搜索引擎与问答系统对比

从某种意义上说,问答系统是集知识表示、信息检索、自然语言处理与智能推理等技术于一身的新一代搜索引擎。——《统计自然语言处理》

维度

传统信息检索系统/传统搜索引擎

问答系统

输入

关键词组合

自然语言提问

输出

相关的候选文档列表

准确的答案

领域

信息检索(IR)

NLP + IR

信息确定性

用户信息需求相对模糊

用户信息需求相对明确

三、问答系统分类

问答系统有多种分类方式,比如基于不同的知识源和不同的问题类型等。——肖仰华《知识图谱 概念与技术》

基于知识源的分类方式:—— 肖仰华、崔万云

问答系统

非结构化知识源

结构化知识源

单一文档

跨文档

单一表格

跨表格

单文档阅读理解 | 机器阅读理解

多文档阅读理解 | 信息检索问答 IRQA

知识图谱问答

数据库问答

从单一文档中寻找答案

侧重跨文档的推理

知识库

关系型数据库,多表关联

MRC-QA、DBQA

FAQ-QA、DrQA、CoQA

KBQA

Table QA、NL2SQL

领域分类:—— 冯岩松《基于知识的自然语言问答》

检索类问答(搜索引擎、社区问答、FAQ)、知识类问答(知识库问答、常识知识问答)、交互类问答(聊天、任务式对话)、机器阅读/理解。

解释:

知识图谱提供了多元异构知识的统一表示,通常表示为一个巨大的三元组表格。因此,KBQA是通过单一表格来做出回答的。

四、KBQA、FAQ、MRC 对比

(1)概念相关

维度

KBQA

FAQ

MRC

中文名

知识库问答

常见问题解答

机器阅读理解

英文全称

Knowledge-Based Question Answering

Frequently Asked Questions

Machine Reading Comprehension

别名

知识图谱问答 KGQA

常见问答集

文档问答

定义

从知识库中搜索与问题相关的实体或关系或属性作为答案

在已有的“问题-答案”对集合中找到与用户提问相匹配的问句,并将其对应的答案返回给用户

根据给定的上下文回答问题

举栗

智能语音助手

12345客服联盟

中高考语文英语阅读

开放域样例

杭州是哪个省的?姚明的老婆的女儿是谁?刘德华是演员吗?

知识图谱是什么?为什么要用知识图谱?怎么使用只知识图谱?

-

(2)问题答案相关

维度

KBQA

FAQ

MRC

问题类型

简单问题、复杂问题、推理问题

简单问题

简单问题、部分复杂问题

问题种类

支持复杂的需要多跳、计算和推理的问题,较灵活

只支持高频问题,较死板

偏文本语义理解

问题标签

事实型:事实类、逻辑类

非事实型:解释类、为什么类、怎样类

均有

问题表示

自然语言

关键词

自然语言

答案来源

结构化数据、文本数据挖掘

问答对数据

自由文本

答案形式

知识点不是孤立的,相互关联

静态的、预先定义的

动态的、细粒度的

知识表示

关联性数据提供文本理解的语义背景,具有更丰富的知识表示

文本句子的内部理解

上下文

(3)任务条件相关

维度

KBQA

FAQ

MRC

任务划分

简单和复杂、封闭和开放

QA匹配、QQ匹配

完形填空、多项选择、跨度提取、自由回答

必要条件

KB中存在和问题匹配的内容

存在和问题匹配的FAQ对,FAQ是人工生成或者经过人工审核

答案必须在文本中出现,且是文本中的连续片段

适用问题

问题能够被语义解析,解析结果能匹配到KB中的子图

能被FAQ中的Q匹配的问题

问题询问的答案粒度较细,且答案来源于已知文本

数据准备

知识挖掘,构造结构化图谱,较复杂

梳理高频问答,较容易

文本数据多,较容易

意图判断

需要判断意图

不判断,直接匹配

不需要

(4)特点相关

维度

KBQA

FAQ

MRC

构造成本

精确性

一般

问答系统分类与对比

召回率

一般

一般

可解释性

一般

一般

推理能力

扩展性

信息、实体都支持

信息问答

信息问答

数据质量

人工标注或解析自网页表格的高质量数据

文本错误或者不同文本的知识矛盾

-

数据管理

精细化知识管理,易于维护

管理问答列表,维护难度大

管理文本,较容易

查询效率

存储于数据库,使用索引加速查询

倒排表

-

轮次

单轮或多轮

单轮

单轮

(5)优缺点相关

维度

KBQA

FAQ

MRC

优点

可以回答推理类问题、回答准确率较高

回答的覆盖率较高。对未收录的问题也能靠字面语义匹配

文本获取容易,不需要进行文本结构化

缺点

KB构建成本高

排Top1的答案未必与问题匹配,需要用专门的模型过滤。语义匹配模型需要大量的训练数据

需要大量人工标注的数据训练模型

优势

为问题的语义理解提供丰富的背景知识;提供初步的推理能力

擅长回答高频问题

减少了对文本数据做结构化处理的成本

(6)总结1:现阶段任何一项技术,都有其天花板及适用性。在真正使用智能问答时,需要综合考虑数据来源、数据规模和构建成本。在一个技术不能打遍全场的情况下,需要构建一个三者混合的多引擎问答。 ——王昊奋

(7)总结2:真实应用的QA系统需要回答不仅仅于图谱简单知识匹配的问题:复杂路径匹配、比较形、连续推理+比较形、反向路径、复杂知识、图谱缺失、比较形+图谱缺失。 ——崔万云

五、知识图谱与图数据库

知识图谱是图数据库关联最为紧密、场景最广泛的应用方向。

知识图谱以图数据库作为存储引擎,对海量信息进行智能化处理,形成大规模的知识库并进而支撑业务应用。

-

六、参考

1、问答系统和对话系统-KBQA和对话系统综述:https://zhuanlan.zhihu.com/p/93023782

2、神经机器阅读理解:方法与趋势:https://zhuanlan.zhihu.com/p/87046392

3、三种方法融合:https://www.bobinsun.cn/assets/pdf/知识驱动的智能问答在企业计算中的落地实践-乐言科技王昊奋.pdf

4、美团,知识图谱问答实践:https://www.cnblogs.com/CheeseZH/p/13734569.html

5、知识图谱在美团智能交互场景问答中的应用和演进:https://www.infoq.cn/article/hf8et8axksgesthwswip

6、KGQA KBQA QApairQA 三者比较:https://blog.csdn.net/guotong1988/article/details/81532538

7、云小微开放平台词汇表:https://dingdang.qq.com/doc/page/29

8、针对复杂问题的知识图谱问答KBQA最新进展调研:https://developer.aliyun.com/article/775683

9、当我们在谈论聊天机器人时,到底在谈论什么(一):https://mp.weixin.qq.com/s/Y2cnH7MfGDPPi2zzjVJzrA

10、《知识图谱与图数据库》:https://zhuanlan.zhihu.com/p/154272979

11、《知识图谱》赵军

12、《知识图谱 方法、实践与应用》王昊奋

13、《知识图谱 概念与技术》肖仰华

14、《统计自然语言处理》宗成庆

15、《知识问答概述》崔万云 PPT

16、《基于知识的自然语言问答》冯岩松 PPT

17、《智能问答在企业计算中的机遇与挑战》王昊奋 期刊文章

知识图谱

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Python格式化文件存储---XML
下一篇:【Python3网络爬虫开发实战】1.3.3-pyquery的安装
相关文章