WeNet云端推理部署代码解析（上）-伙伴云

WeNet云端推理部署代码解析（上）

网友投稿 1289 2025-03-31

WeNet是一款开源端到端ASR工具包，它与ESPnet等开源语音项目相比，最大的优势在于提供了从训练到部署的一整套工具链，使ASR服务的工业落地更加简单。如图1所示，WeNet工具包完全依赖于PyTorch生态：使用TorchScript进行模型开发，使用Torchaudio进行动态特征提取，使用DistributedDataParallel进行分布式训练，使用torch JIT（Just In Time）进行模型导出，使用LibTorch作为生产环境运行时。本系列将对WeNet云端推理部署代码进行解析。

图1：WeNet系统设计[1]

1. 代码结构

WeNet云端推理和部署代码位于wenet/runtime/server/x86路径下，编程语言为C++，其结构如下所示：

其中：

语音文件读入与特征提取相关代码位于frontend文件夹下；

端到端模型导入、端点检测与语音解码识别相关代码位于decoder文件夹下，WeNet支持CTC prefix beam search和融合了WFST的CTC beam search这两种解码算法，后者的实现大量借鉴了Kaldi，相关代码放在kaldi文件夹下；

在服务化方面，WeNet分别实现了基于WebSocket和基于gRPC的两套服务端与客户端，基于WebSocket的实现位于websocket文件夹下，基于gRPC的实现位于grpc文件夹下，两种实现的入口main函数代码都位于bin文件夹下。

日志、计时、字符串处理等辅助代码位于utils文件夹下。

WeNet提供了CMakeLists.txt和Dockerfile，使得用户能方便地进行项目编译和镜像构建。

2. 前端：frontend文件夹

WeNet只支持44字节header的wav格式音频数据，wav header定义在WavHeader结构体中，包括音频格式、声道数、采样率等音频元信息。WavReader类用于语音文件读入，调用fopen打开语音文件后，WavReader先读入WavHeader大小的数据（也就是44字节），再根据WavHeader中的元信息确定待读入音频数据的大小，最后调用fread把音频数据读入buffer，并通过static_cast把数据转化为float类型。

struct WavHeader { char riff[4]; // "riff" unsigned int size; char wav[4]; // "WAVE" char fmt[4]; // "fmt " unsigned int fmt_size; uint16_t format; uint16_t channels; unsigned int sample_rate; unsigned int bytes_per_second; uint16_t block_size; uint16_t bit; char data[4]; // "data" unsigned int data_size; };

这里存在的一个风险是，如果WavHeader中存放的元信息有误，则会影响到语音数据的正确读入。

WeNet使用的特征是fbank，通过FeaturePipelineConfig结构体进行特征设置。默认帧长为25ms，帧移为10ms，采样率和fbank维数则由用户输入。

用于特征提取的类是FeaturePipeline。为了同时支持流式与非流式语音识别，FeaturePipeline类中设置了input_finished_属性来标志输入是否结束，并通过set_input_finished()成员函数来对input_finished_属性进行操作。

提取出来的fbank特征放在feature_queue_中，feature_queue_的类型是BlockingQueue>。BlockingQueue类是WeNet实现的一个阻塞队列，初始化的时候需要提供队列的容量(capacity)，通过Push()函数向队列中增加特征，通过Pop()函数从队列中读取特征：

当feature_queue_中的feature数量超过capacity，则Push线程被挂起，等待feature_queue_.Pop()释放出空间。

当feature_queue_为空，则Pop线程被挂起，等待feature_queue_.Push()。

线程的挂起和恢复是通过C++标准库中的线程同步原语std::mutex、std::condition_variable等实现。

线程同步还用在AcceptWaveform和ReadOne两个成员函数中，AcceptWaveform把语音数据提取得到的fbank特征放到feature_queue_中，ReadOne成员函数则把特征从feature_queue_中读出，是经典的生产者消费者模式。

3. 解码器：decoder文件夹

通过torch::jit::load对存在磁盘上的模型进行反序列化，得到一个ScriptModule对象。

torch::jit::script::Module model = torch::jit::load(model_path);

WeNet推理支持的解码方式都继承自基类SearchInterface，如果要新增解码算法，则需继承SearchInterface类，并提供该类中所有纯虚函数的实现，包括：

WeNet云端推理部署代码解析（上）

// 解码算法的具体实现 virtual void Search(const torch::Tensor& logp) = 0; // 重置解码过程 virtual void Reset() = 0; // 结束解码过程 virtual void FinalizeSearch() = 0; // 解码算法类型，返回一个枚举常量SearchType virtual SearchType Type() const = 0; // 返回解码输入 virtual const std::vector>& Inputs() const = 0; // 返回解码输出 virtual const std::vector>& Outputs() const = 0; // 返回解码输出对应的似然值 virtual const std::vector& Likelihood() const = 0; // 返回解码输出对应的次数 virtual const std::vector>& Times() const = 0;

目前WeNet只提供了SearchInterface的两种子类实现，也即两种解码算法，分别定义在CtcPrefixBeamSearch和CtcWfstBeamSearch两个类中。

WeNet支持语音端点检测，提供了一种基于规则的实现方式，用户可以通过CtcEndpointConfig结构体和CtcEndpointRule结构体进行规则配置。WeNet默认的规则有三条：

检测到了5s的静音，则认为检测到端点；

解码出了任意时长的语音后，检测到了1s的静音，则认为检测到端点；

解码出了20s的语音，则认为检测到端点。

一旦检测到端点，则结束解码。另外，WeNet把解码得到的空白符(blank)视作静音。

WeNet提供的解码器定义在TorchAsrDecoder类中。如图3所示，WeNet支持双向解码，即叠加从左往右解码和从右往左解码的结果。在CTC beam search之后，用户还可以选择进行attention重打分。

图2：WeNet解码计算流程[2]

可以通过DecodeOptions结构体进行解码参数配置，包括如下参数：

struct DecodeOptions { int chunk_size = 16; int num_left_chunks = -1; float ctc_weight = 0.0; float rescoring_weight = 1.0; float reverse_weight = 0.0; CtcEndpointConfig ctc_endpoint_config; CtcPrefixBeamSearchOptions ctc_prefix_search_opts; CtcWfstBeamSearchOptions ctc_wfst_search_opts; };

其中，ctc_weight表示CTC解码权重，rescoring_weight表示重打分权重，reverse_weight表示从右往左解码权重。最终解码打分的计算方式为：

final_score = rescoring_weight * rescoring_score + ctc_weight * ctc_score; rescoring_score = left_to_right_score * (1 - reverse_weight) + right_to_left_score * reverse_weight

TorchAsrDecoder对外提供的解码接口是Decode()，重打分接口是Rescoring()。Decode()返回的是枚举类型DecodeState，包括三个枚举常量：kEndBatch，kEndpoint和kEndFeats，分别表示当前批数据解码结束、检测到端点、所有特征解码结束。

为了支持长语音识别，WeNet还提供了连续解码接口ResetContinuousDecoding()，它与解码器重置接口Reset()的区别在于：连续解码接口会记录全局已经解码的语音帧数，并保留当前feature_pipeline_的状态。

总结

本文主要对WeNet云端推理代码进行探索，介绍了代码结构、前端和解码器部分代码。在《WeNet云端推理部署代码解析（下）》中，笔者将继续解析WeNet云端部署代码。

参考

[1] WeNet: Production First and Production Ready End-to-End Speech Recognition Toolkit

[2] U2++: Unified Two-pass Bidirectional End-to-end Model for Speech Recognition

SIS

RPA 实战：让小姐姐填满你的硬盘(上)

1289 2025-03-31

WeNet云端推理部署代码解析（上）

教面试官ReentrantLock源码

RPA 实战：让小姐姐填满你的硬盘(上)

[华为云在线课程][Shell脚本编程基础][第二章Shell脚本语言的基本用法][1基本结构][学习笔记]

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

定制订单管理系统（为特定需求定制的订单管理系统）

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

友情链接

WeNet云端推理部署代码解析（上）

微信扫一扫：分享

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

友情链接