说话人分类——概念简记

网友投稿 904 2022-05-30

引言 部分:

说话人分类——概念简记

随着音频处理技术的不断提高,从海量的数据 中(如电话录音、新闻广播、会议录音等)获取感兴趣 的特定人声已成为研究热点[ 1].另外,如何对这类音 频文档进行合理有效的管理,也是目前存在的一个 挑战.美国国家标准局(NIST)从2002的丰富转写评测(richtranscription,RT)中正式加入了说话人 分离任务[ 2]( Speaker diarization,SD),该任务是指 从多人对话中自动地将语音依据说话人进行划分, 并加以标记的过程.

与传统“鸡尾酒会”形式的复杂背景下混合语音 分离不同,说话人分离主要面向的是多个话者不同 时发声的场景,它解决的是“什么时候由谁说”这样 一个问题,而前者大多是通过盲源分离(BSS) [ 3]和 计算听觉场景分析(CASA)

[ 4]等方式处理.目前的说话人分离技术主要包含两个过程:说话人分割 (speaker segmentation )和 说话人 聚 类 (Speaker clustering).

分割的过程是指从多人对话的音频中 找寻不同说话人身份转变的时间点,然后根据这些 变化点可以将语音分割成若干短语音段,理想情况 下,经分割后的每个短语音段只会包含一个说话人 的信息.聚类的过程则是将分割后的所有属于同一 个说话人的小片段通过一些聚类的方法,再重新组 合在一起. 说话人分离技术有着广泛的实际应用意义,如 可以利用该技术实现电话和会议数据的自动分离及 转写,将分离后的不同说话人声解码后,按敏感词检 测和目标人进行抽取;为构建和检索说话人音频档 案提供有效的信息.获得的信息既可以用于音频检 索;也可以用来对语音库进行自动标注和自动跟踪 等;同时它也是语音识别的基础,直接影响到语音识 别的精度.

可能存在的错误分析如下:

说话人分类系统需要选出不同说话人的语音片段,因此说话人聚类的纯度和覆盖区域是当前的主要目标。可能存在的错误如下:

两个不同的聚类对应于同一个说话人

把两个不同说话人的片段合并到一个聚类中

这两种错误在NIST基于时间的二分化度量中,比边界划分错误更为严重

该系统由声学BIC分段和BIC分层聚类组成,使用维特比解码以调整分段边界。

语音通话

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:GitHub/Gitee静态页托管页部署SSL证书
下一篇:【Linux 内核】编译 Linux 内核 ⑤ ( 查看 .config 编译配置文件 | 正式编译内核 )
相关文章