TensorRT使用INT8 原理总结-伙伴云

TensorRT使用INT8 原理总结

网友投稿 2134 2025-03-31

目标: 在没有明显准确度丢失的情况下将FP32的CNNs网络转换为INT8

理由: INT8类型的存储方式有很高的通量和较低的内存需求

挑战: 相对于FP32, INT8有明显较低的精度和动态范围

解决方式: 在将权值以及计算时最小化有效信息损失.

结果: 上述转换可以通过TensorRT来进行实现，同时该方法不需要额外的大量调整和重新训练

对于INT8 推断（Inference），需要生成一个校准表来量化模型。接下来主要关注INT8推断（Inference）的几个方面，即：如何生成校准表，如何使用校准表，和INT8推断（Inference）实例。

面临的挑战

相对于FP32，INT8的精度和动态范围要小很多：

从FP32到INT8需要不止一次的类型转换

1) 如何生成校准表？

校准表的生成需要输入有代表性的数据集，对于分类任务TensorRT建议输入五百张到一千张有代表性的图片，最好每个类都要包括。生成校准表分为两步：第一步是将输入的数据集转换成batch文件；第二步是将转换好的batch文件喂到TensorRT中来生成基于数据集的校准表，可以去统计每一层的情况。

2) 如何使用校准表？

校准这个过程如果要跑一千次是很昂贵的，所以TensorRT支持将其存入文档，后期使用可以从文档加载，其中存储和加载的功能通过两个方法来支持，即writeCalibrationCache和readCalibrationCache。最简单的实现是从write()和read()返回值，这样就必须每次执行都做一次校准。如果想要存储校准时间，需要实现用户自定义的write/read方法，具体的实现可以参考TensorRT中的simpleINT8实例。

INT8相较于FP32的计算量变小了，同样也需要适合小精度的计算单元来执行，否则同样在FP32计算单元上面执行，则只在模型大小上面有一定的优势，而并不能带来真正性能的提升，这时候就要谈到GPU为INT8计算的提供的硬件支持。

对于sm_61+如Tesla P4/P40 GPU，我们提供了新的INT8点乘运算的指令支持---DP4A，其将FP32单元“拆开“分成4个INT8单元，从而通过两个FP32单元实现4个INT8数的点乘操作，最后累加成INT32的结果，计算过程如下图所示：

从而对于Tesla P4来说，其拥有5.5T的FP32计算性能，通过DP4A指令为其赋予了INT8的计算能力，并达到了FP32的4倍也就是22T的计算性能。

线性量化

对于每一个FP32的Tensor（权值和激活值），我们无法直接用INT8来表示，因此最直接的表达方法为：

Tensor Values = FP32 scale factor * int8 array + FP32 bias

这时候我们需要考虑一个问题，我们是否真的需要FP32的bias？

对于以下两个矩阵：

A = scale_A * QA + bias_A

TensorRT使用INT8 原理总结

B = scale_B * QB + bias_B

推理过程中绝大部分为矩阵乘法，因此这两个矩阵相乘的计算可以表示为：

A * B = scale_A * scale_B * QA * QB + scale_A * QA * bias_B + scale_B * QB * bias_A + bias_A * bias_B

如果我们直接将去掉bias，则两者相乘为：

A * B = scale_A * scale_B * QA * QB

通过去掉bias我们能极大的简化计算内容，降低对GPU中寄存器等资源的消耗，而我们的实验也发现去掉bias不会对性能产生很大的影响。故而TensorRT在这里采用的优化的对称线性量化方法：

Tensor Values = FP32 scale factor * int8 array

现在问题就变成如何寻找一个最优的scale factor？

量化有以下两种方法：

图左-非saturation：对weights和activations使用线性量化，即找到其中绝对值最大的值，然后将这个范围映射回INT8

图右-saturation：选择一个阈值T，将范围T的FP32值映射至INT8，对于范围外的使用-127或128

根据实验证明，图左的方法转化后会带来很大的准确度损失。而对于图右的方法：

weights：无法提升准确度

activations：能有效提升准确度

因此对于weights和activations分别采用了不同的量化方法，前者使用了简单的非saturation的方法，而后者采用的是较为复杂的saturation方法。

量化整体流程

以卷积kernel为例：

输入为：INT8_INPUT，I8_weights

输出为：INT8_OUTPUT

所需参数：FP32 bias (来自于FP32模型中)，FP32 scaling factors: input_scale, output_scale, weights_scale[K]

利用DP4A指令计算 INT8_INPUT与I8_weights的乘积获得I32_gemm_out

利用input_scale以及weights_scale将I32_gemm_out转化成为FP32的F32_gemm_out

利用input_scale, output_scale和weights_scale 将FP32的F32_gemm_out映射至输出的activation分布，获得rescaled_F32_gemm_out

给rescaled_F32_gemm_out加上FP32的bias获得rescaled_F32_gemm_out _with_bias

对rescaled_F32_gemm_out _with_bias执行relu从而获得F32_result

最后根据前文的阈值T将F32_result转成I8_output

根据所选的量化方法以及量化的整体流程，对于量化最关键的是如何实现saturation方法中的阈值T的选择，这个选择流程被称之为校准。

校准

上图分别是vgg19-conv3_4, resnet152-res4b8_branch2a, googlenet:incetion_3a/pool的activations的分布直方图，其中横轴为activation值，纵轴是正则化后的值的数量级。

对于将activations从FP32映射至INT8可以看成是信息的重编码过程，需要做的是在INT8中最大的保留FP32的信息，这里通过引入KL divergence来作为INT8的信息损失率评价指标。

校准的整体流程

选取validation数据集中一部分具有代表的数据作为校准数据集

对于校准数据进行FP32的推理，对于每一层

收集activation的分布直方图

使用不同的threshold来生成一定数量的量化好的分布

计算量化好的分布与FP32分布的KL divergence，并选取使KL最小的threshold作为saturation的阈值

整个流程将花费几分钟至几十分钟来完成

以下是几个常见网络的部分activation分布及校准结果：

GOOGLENET：Inception_5a/5x5

ALEXNET：Pool2

RESNET：Res4b30

如上三图分别是GOOGLENET/ALEXNET/RESNET中某一层的activation的分布，其中白线的左边的activation数据将映射至INT8中，而右边的将被截断。

可以明显的看到前两个网络的FP32 activation分布在INT8中得以几乎完整的保留。

第三个图左的白线截断了其右侧activation的分布，第三个图右为截断后的分布图。图中的绿点即为截断部分映射至INT8的极大值所占比例，可以看到绿点在整体分布的所占比例并不大，因此损失的信息仍然是可以接受的，校准也极大的保留的FP32的activation的分布信息。

人工智能 AI

机器学习服务提取图片的特征向量">使用SAP Leonardo上的机器学习服务提取图片的特征向量

2134 2025-03-31

为什么电脑打不开word文档（为什么电脑打不开word文档可以打开表格）

2134 2025-03-31

Excel求差函数公式怎样使用

2134 2025-03-31

TensorRT使用INT8 原理总结

机器学习服务提取图片的特征向量">使用SAP Leonardo上的机器学习服务提取图片的特征向量

为什么电脑打不开word文档（为什么电脑打不开word文档可以打开表格）

Excel求差函数公式怎样使用

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

什么是在线文档？怎么发在线文档

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

友情链接

TensorRT使用INT8 原理总结

微信扫一扫：分享

机器学习服务提取图片的特征向量">使用SAP Leonardo上的机器学习服务提取图片的特征向量

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

友情链接