鲲鹏服务器上kaldi 运行voxforge例子-伙伴云

网友投稿 616 2022-05-29

1 介绍

Kaldi是当前最流行的开源语音识别工具(Toolkit)，它使用WFST来实现解码算法。Kaldi的主要代码是C++编写，在此之上使用bash和python脚本做了一些工具。

voxforge是个收集语音的网址，你可以免费的得到语音库。下载的话你可以用一些批量下载的软件或者利用kaldi/egs/voxforge/s5里的getdata.sh来下载。大概有12.6GB的大小，大家保证你的linux系统有足够的空间来存储。

2 安装准备

华为云购买一台鲲鹏服务器

本文以云服务器KC1实例搭建，云服务器配置如表1-1所示。

表1-1 云服务器配置

项目

说明

规格

kc1.large.2 | 2vCPUs | 4GB

磁盘

系统盘：高IO（40GB）

操作系统要求如表1-2所示。

表1-2 操作系统要求

项目

说明

Ubuntu

18.04

在公共镜像中已提供。

Kernel

4.15.0

在公共镜像中已提供。

3 安装kaldi

参考博客：https://bbs.huaweicloud.com/blogs/173186

我安装的目录是/usr/local/kaldi

运行voxforge例子时候，需要online-gmm-decode-faster 和 online-wav-gmm-decode-faster，

online-wav-gmm-decode-faster 用来回放wav文件来识别的；

online-gmm-decode-faster用来从麦克风输入声音来识别的。

参考如下步骤安装：

1）bash extras/install_portaudio.sh

a. 在kaldi/tools目录下运行 bash extras/install_portaudio.sh

该脚本下载pa_stable_v19_20111121.tgz并且解压，执行时候报错：

b. 修改文件：vi config.sub （解决configure: error: cannot guess build type; you must specify one）

查找“x86”内容的位置，在其位置后面增加aarch64类型，具体2处增加：

case $basic_machine in处

（1）

| x86 | xc16x | xstormy16 | xtensa \

改为：

（2）

| x86-* | x86_64-* | xc16x-* | xps100-* \

改为：

| x86-* | aarch64-* | x86_64-* | xc16x-* | xps100-* \

c. 重新打包：pa_stable_v19_20111121.tgz

rm –rf pa_stable_v19_20111121.tgz

tar –zcvf pa_stable_v19_20111121.tgz portaudio

鲲鹏服务器上kaldi 运行voxforge例子

d. 修改extras/install_portaudio.sh后重新执行

在./configure 后面在加上参数

./configure --prefix=`pwd`/install --with-pic

改为：

./configure --prefix=`pwd`/install --with-pic --host=aarch64 --build=aarch64

extras/install_portaudio.sh

2) 安装online

cd /usr/local/kaldi/src/online

make -j2

3) 安装onlinebin

cd /usr/local/kaldi/src/onlinebin

make -j2

生成 online-gmm-decode-faster 和 online-wav-gmm-decode-faster

5 分析和执行voxforge中online_demo例子

Voxforge目录下有三个子目录，分别是gst_demo，online_demo，s5，其中s5是特征提取，模型训练，得出模型的例子，online_demo是根据模型进行进行在线语音识别，识别麦克风输入，是推理过程。这里分析online_demo例子。

默认模式离线文件解码： online_demo/run.sh

离线在线解码：online_demo/run.sh --test-mode live

run.sh脚本分析（分析离线语音识别模型）：

1）下载online-data.tar.bz2，如果目录下有该语言包，则跳过次步骤，-:

http://sourceforge.net/projects/kaldi/files/online-data.tar.bz2

2）解压，生成online-data，如下为目录结构

--online-data

--audio //该目录存放wav语言文件

--models

--tri2a

--tri2b_mmi //脚本中采用此模型

在tri2a或者tri2b_mmi目录下，有模型文件model（tri2a多了一个final.mdl，即model文件的软链接），有转移矩阵文件matrix

说明：

（1）audio：可以将需要测试的wav文件拷贝到此目录

（2）tri2b_mmi目录下的文件是在s5训练中生成的，可以将s5下的exp目录下的final.mdl, s5目录下的exp下的tri下的graph_word里面的words.txt,和HCLG.fst，考到models的tri2a或者tri2b_mmi下，或者拷贝到自己新建的模型目录。

3）将audio目录下的wav文件加入文件列表input.scp

> $decode_dir/input.scp for f in $audio/*.wav; do bf=`basename $f` bf=${bf%.wav} echo $bf $f >> $decode_dir/input.scp done

4）online-wav-gmm-decode-faster对文件列表进行语音识别

online-wav-gmm-decode-faster --verbose=1 --rt-min=0.8 --rt-max=0.85\ --max-active=4000 --beam=12.0 --acoustic-scale=0.0769 \ scp:$decode_dir/input.scp $ac_model/model $ac_model/HCLG.fst \ $ac_model/words.txt '1:2:3:4:5' ark,t:$decode_dir/trans.txt \ ark,t:$decode_dir/ali.txt $trans_matrix;;说明：ali.txt记录对齐的状态与帧之间关系 trans.txt记录解码结果的数字

5）估计模拟解码的错误率

鲲鹏语音通话

我的云文档怎么没有了（我的云文档怎么找）

616 2022-05-29

鲲鹏 服务器上kaldi 运行voxforge例子

我的云文档怎么没有了（我的云文档怎么找）

今天一直打不开云文档是怎么一回事，老是显示没网，网络不稳定，

网络通畅情况下，无法连接到云端（无法连接云端什么意思）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

什么是在线文档？怎么发在线文档

Excel项目进度表模板，简化您的项目进度管理

友情链接