[NAS论文][Transformer]HAT: Hardware-Aware Transformers.....-伙伴云

[NAS论文][Transformer]HAT: Hardware-Aware Transformers.....

网友投稿 786 2022-05-29

[HAT: Hardware-Aware Transformers for Efficient Natural Language Processing]

论文地址：https://arxiv.org/abs/2005.14187

-码：https://github.com/mit-han-lab/hardware-aware-transformers.git

【总览】

1、一个足够的设计空间中使用一个高效的权重共享SuperTransformer进行硬件感知的神经结构搜索[NAS]，并发现高性能低延迟模型，消耗的成本比之前的Evolved Transformer少四个数量级

2、在评估Transformer的时候，往往有两个问题，1是FLOPs并不反映测量的latency。虽然在现有很多论文里，FLOPs被用作效率的衡量标准，但是其实在不同硬件下，FLOPs和latency之间并不完全对应，下图可见，同样的FLOPs模型的latency其实可以差很远。2是不同的硬件偏好的模型结构不同。ARM 对于Hidden Dim, Embedding Dim 和 Layer Num都比较敏感下图（a），大致呈线性关系。但是Intel CPU和NVIDIA GPU却基本只和layer num呈线性关系（下图bc），这也本文的动机，为不同的硬件提供他们喜欢的模型架构。

【方法】

为了使得Transformer可以变成超网络，提供可选的op，也就是从Transformer --> superTransformer这个过程，有两点改变：

1、Arbitrary Encoder-Decoder Attention

传统的transformer只从encoder最后一层抽取信息，迫使虽有的解码器只从高抽象层学习，而忽略了低级信息，形成了信息瓶颈。因此，本文对transformer做的第一个改变是允许每个解码器层可以选择多个编码器层，它允许关注不同的抽象级别，从而提高了模型的容量，如下图所示。

2、 Heterogeneous Transformer Layers

传统的 Transformer 对所有的层重复同样的网络结构。在本文中，所以层的结构可以不相同，例如有不同的头数（Head Number），隐藏层维度（Hidden Dim），词向量长度（Embedding Dim）等等（ with different numbers of heads, hidden dim, and embedding dim）。

① hidden dim elastic

传统的transformer的hidden dim是embedding dim 的2倍、4倍，但这不是最优的，因为不同的层需要不同的能力，这取决于特征提取的难度

② elastic embedding dim

也支持编码器和解码器的elastic embedding dim，但在编码器/解码器内部是尺度一致的

③ elastic layers

【superTransformer构建】

因为训练每个架构然后再BLEU上比较不显示，所以，类似于CNN的supernet，这里也构建一个超网络涵盖了所有的子架构，叫做superTransformer，同样的，也采样权重共享的方案。对于 elastic embedding dim，所有子架构（subtransformer）共享最长单词embedding的前端部分和相应的FC层权值。对于elastic FFN dim，前端FC权重共享， Elastic layer numbers共享前几层，对于 elastic head number的注意模块中，全部Q;K;V向量(长度在NAS空间中是固定的 Q; K; V

vector dim fixed as 512)通过划分头部数部分来共享，上述看下图。

superTransformer采用uniformly sample训练。

[NAS论文][Transformer]HAT: Hardware-Aware Transformers.....

【如果不是共享前面部分，比如说共享中间部分会怎么样？】

【Evolutionary Search for SubTransformer】

【Result】

结果可以直接看图：，在机器翻译任务上，以transformer-big为基准，在GPU上可以加速2.7倍和1.8倍推理速度在WMT'14 En-De/WMT'14 EN-FR任务上

【结论分析】

1、从搜到的结果来看，GPU的网络搜到的网络偏向于又宽又浅，树莓派的则又窄又深

神经网络

你好，请问我论文里面引用的句子，查重为什么显示的都是红色，我插入脚注了呀？

786 2022-05-29

[NAS论文][Transformer]HAT: Hardware-Aware Transformers.....

你好，请问我论文里面引用的句子，查重为什么显示的都是红色，我插入脚注了呀？

怎样论文查重（怎样论文查重报告）

稻壳的论文助手怎么打开啊

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

客户管理工具是什么？

简单进销存库存管理盘点

友情链接

[NAS论文][Transformer]HAT: Hardware-Aware Transformers.....

微信扫一扫：分享

推荐文章

最近发表

热评文章

友情链接