语音交互技术在政务领域的应用

网友投稿 1030 2022-05-29

关键词:对话助手;对话式人工智能;政务应用

最近去公积金中心办理逐月还贷的业务,由于害怕排队时间较长,还没到上班时间就早早排队去了。正当我等待得百无聊赖之时,坐旁边的一位小兄弟对着手机说:转1000块钱给我妈。我看他用手机人脸识别了一把,看样子是转账成功了,开心地继续刷手机。作为一名业内人士,对这位孝顺的小兄弟,我心生感(kui)慨(jiu)之余,立马想到,如果我能对着手机说:帮我办下公积金还贷业务,然后能很快办完,我就可以不用在这等而是去加班奋斗了。很可惜,我的愿望暂时不能实现。

好的消息是,随着目前智慧城市建设的推进,政府也希望能够借助数字化手段,提高政府治理能力,方便市民办理各项业务。这其中,采用语音作为交互方式的新兴应用也逐步出现。事实上,在一些发达国家,也能看到这类应用。比如在推行数字政府的新加坡,可以通过像LifeSG[[1]]这类应用用语音来获取政务服务。在2019年4月份,英国数字政府部门上线语音查询政府公开信息的服务,用户在家可以通过Google Home或者Amazon Alexa智能音箱直接查询GOV.UK网站上超过12,000项政府信息,市民可通过语音完成的任务范围逐渐扩大,从“国家最低工资标准”到“我如何申请一个新的护照”等等,并且陆续上线更多的查询服务,比如办理结婚手续的详细过程等[[2]]。

那为什么会出现很多基于语音的应用呢?我们注意到,尽管由于新冠疫情影响,全球智能音箱出货量在2020年增长了13%,在2019年第四季度出货量约为4900万台[[3]]。而早在2016年,谷歌号称,在谷歌app中有20%的搜索是通过语音来完成。这些事实说明,越来越多的家庭和个人习惯使用语音来进行交互,而且语音交互式未来的一个趋势。在智慧城市的建设中,政府也希望能够使用新技术来提供更好的服务。我们简单分析下语音交互应用(VUI)的优势。

VUI的优势

首先,说话是人最自然的沟通方式。如果系统能够提供一个用会话进行交互的接口,那么,用户不需要学习,只要提问题,就能获得系统的反馈。其次,说话比打字要快得多。大家经常用语音助手查天气,定闹钟,是因为比起打开几个APP页面,再搜索查询的城市或者拨选闹钟时间,直接通过简单的语音指令就能完成,后者更加快速。对于一些输入文字咨询问题的场景,语音输入也要比打字快得多。再者,说话的方式可以解放双手。现实生活中,有很多工作场景不方便使用手去操作屏幕,比如你在厨房做饭想查看菜谱,交警执勤时想查看路况信息,制造工人操作时想查看零件参数,忙着改良装备的钢铁侠想查看家门口的监控,等等。VUI提供了与系统交互的另外一个渠道,多渠道地交互,才能收获更自然顺畅的体验。由于这几个主要优势,VUI被看作是未来应用交互的趋势。除此之外,有些设备可能不具备显示屏,或者屏幕很小,VUI可能是更好或者唯一能选择的交互方式。

既然VUI具有这么多的有点,那么如何设计VUI呢?首先我们先看下VUI的设计原则。

VUI设计原则

在讨论设计原则之前,对VUI的设计,有几个前提:第一,语音交互过程通常要短,并保持最少的来回对话次数;第二,即使正处于忙时,并且没办法集中注意力时,用户仍然能够通过对话来完成任务;第三,完成同样的任务,VUI方式比使用GUI交互方式更顺畅[4]。然后我们来看下具体的设计原则:

1.       理解用户的真实意图。

目前的对话应用,大多在任务型对话机器人领域取得一定的成功。一个意图通常对应一个具体的待执行任务,比如“我想把客厅的等关掉”,对应的就是一个简单的任务。然而,在设计VUI时,我们不应该假设用户的表述时很准确的,也就是用户对同一件事的表达多种多样。如何准确理解用户的意图,是VUI的关键。

更重要的是,如果想要获得更自然的交互方式,VUI系统需要理解很多背景知识。比如,当你说“我想处理下汽车违章事件”,你期望能够获得的响应是,“XX路的违章处理中心离你最近,你可以在17点前带上驾驶证、行车证前往办理”。这需要VUI系统能够了解办事的相关流程和地点,所需要的材料,以及相关部门的上班时间等等。相反,如果你得到的响应是一步接着一步向你确认信息,其中某一步很可能还出错,那么体验肯定是令人崩溃的。

最难的一点是,用户很多表述是非常模糊的,或者需要某种共识来理解对话的意图,比如“公积金管理中心是996上班吗?”,用户想要查询的是上班时间。对于这类问题,很多解决方案会借助知识图谱,来构建行业内的共享知识,以期望更加智能地交互。我们相信,随着技术的进步,机器理解对话的意图将会越来越准确。

2.       理解上下文信息

理解对话过程中的上下文,再做出响应是非常体现“智能”的方面。这里的上下文包含几个方面:物理上下文,也就是感知用户所处的位置,用户正在做的事情;情感上下文:也就是当前用户的心情状态;对话上下文:也就是对话过程中,前面说的话包含的信息,以及理解话题是否已经转移。只有充分了解用户,才能给出最合适的答案,增强用户粘性。

3.       协同方式回复

VUI是帮助我们同机器或者设备进行交互,完成某项任务或者获得某个答案,但值得注意的是,如果仅仅给个正确答案,会给人“冰冷”的感觉,更何况,由于很难理解用户意图和上下文信息,其实给出正确答案并不容易。这要求在设计VUI时,需要以协同的方式,与用户进行交互。有三种方法:1)如果用户的问题太模糊,那就询问更多的细节;2)如果答案是“否”,那么给出其它的可选建议,或者满足所说的意图的一种方式;3)给出比期望值更多的信息,当然不是要拉开对话的主题。比如,当用户询问: “我要办理户口迁移”,系统可能没办法执行这一任务,可以回复:“当前户口转移需要现场办理,您可以前往XXX地点办理。”

4.       回复具有多样性

如果对同样情形,每次都是一样的答案,会显得比较单调。尽量设置几种不同的回复,来应对用户的同样的意图,然后随机选择。

5.       关注隐私数据的处理

政务领域会涉及到很多敏感和隐私的数据,比如获取资产证明的官方文档,或者是查询人事信息等。在注重VUI提供操作遍历的同时,也需要关注对隐私数据的处理。

6.       建立鉴权机制

权限机制是大多数应用都会考虑的问题,对于VUI应用,目前的技术手段很难通过声音识别身份,可能需要结合传统的鉴权机制。

有了VUI的设计原则后,我们来看下,在政务领域,VUI具有哪些应用场景。

G2C应用场景

G2C场景主要是指,政府提供面向市民的手机APP,或者小程序,以提供便捷的政务服务,市民可以用它来查询政府公开数据和信息,办理业务等。

有国外同行分析了在数字政府领域构建基于语音的应用的需求以及可能存在的机会点,通过访谈了多位政府工作人员以及具备VUI工程经验的工程师,探讨基于语音的应用场景[5],得到的结果如图Figure 1所示。这些场景,我们认为在国内智慧城市项目中,也具有可参考性。

Figure 1 G2C 语音助手场景分析

G2G应用场景

G2G场景主要是指,面向政府部门内部,提供数字化的手段,优化各部门间的协同办公流程,将一些重复流程自动化,提高日常办公效率等。

在政务办公内部,根据目前的调研,现有产品大都集中在Figure 2所示的场景。这些场景,从技术上来说,只是把对话机器人在其他领域的成功复制到了政务领域,当然,解决好这些场景的需求,也是很有价值的。单就语音查找文件来说,在政府推行无纸化办公的今天,如何快速方便地找到需要的文档,甚至能够理解文档里的内容,直接给出答案,是提高工作效率很有效的手段,这可能是融入到日常办公工作过程中的常用功能。

Figure 2 G2G场景语音助手场景分析

经过以上的分析,我们有了设计原则,也有了应用场景。如果我们再把VUI其中的技术元素再拆解开,将合适的元素与应用场景相结合,就有可能搞出一块创新性的应用。

VUI的技术元素拆解

语音助手的技术框架如Figure 3所示。借助目前深度学习在这一领域的发展,语音识别、自然语言理解等核心模块准确率很高,而且模型泛化性较强。在构建语音助手时,可以选择自己开发相关模型,也可以借助云服务。甚至,几家主要的云服务提供商都有自己的构建语音助手的框架,用户只需要关注行业语料以及业务对话流程,无需关注底层技术细节。比如华为云对话机器人服务[[6]]、百度云Unit平台[[7]],微软QnA Maker[[8]]以及Amazon Lex[[9]]等。

Figure 3 语音助手技术元素拆解

显然,对技术元素的拆解,还可以更细。本文就不再展开,有兴趣的读者,可以参考华为在这方面的技术进展总结[[10]]。

总结

语音交互技术在政务领域的数字化应用是一个不可忽略的趋势,本文分析了如何构建VUI的技术原则,并分析了在政务领域VUI的应用场景。试图通过VUI的技术分解,以及应用场景的结合,探索构建政务领域语音交互技术的应用。

语音交互技术在政务领域的应用

[[1]]https://www.life.gov.sg/

[[2]] Government Digital Service: Government uses Alexa and Google Home to make

services easier to access. https://www.gov.uk/government/news/government-uses-

alexa-and-google-home-to-make-services-easier-to-access, accessed: 2021-01-05

[[3]] Global smart speaker Q4 2019, full year 2019 and forecasts https://www.canalys.com/newsroom/-global-smart-speaker-market-Q4-2019-forecasts-2020, accessed: 2021-01-05

[[4]] Dasgupta R . Voice User Interface Design: Moving from GUI to Mixed Modal Interaction[M]. 2018.

[[5]] Baldauf M, Zimmermann H D. Towards Conversational E-Government[C]//International Conference on Human-Computer Interaction. Springer, Cham, 2020: 3-14.

[[6]] https://support.huaweicloud.com/cbs/

[[7]] https://ai.baidu.com/unit/home

[[8]] https://www.qnamaker.ai/

[[9]] https://aws.amazon.com/cn/lex/

[[10]] 对话机器人70年:科幻与现实的交融  https://www.jianshu.com/p/e0f98f01b158

企业数字化 应用平台ROMA 智慧财政

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Docker容器网络通信原理分析
下一篇:Jupyter工具系列之jupyter lab实用技巧
相关文章