ALBERT:更少参数量的预训练语言模型

网友投稿 1002 2022-05-29

相比于BERT模型,ALBERT主要做了两项改进,一是减少了模型参数量,而是提出了更有效的句子对顺序预测任务。

减少模型参数的策略

词向量矩阵分解

传统的词向量矩阵大小为

V

×

H

V \times H

V×H,其中

V

V

V是词典大小,

H

H

H是模型隐状态大小。为了降低词向量的参数量,ALBERT将词向量矩阵拆分为两个小矩阵

V

×

E

V \times E

V×E和

E

×

H

E \times H

E×H,其中

H

>

>

E

ALBERT:更少参数量的预训练语言模型

H>>E

H>>E。通过这种策略有效减少了词向量参数。

跨层参数共享

原始BERT由多层transformer的encoder构建而成,为了减少参数量,ALBERT使不同层共享同一份参数,主要包括前向神经网络层(feed-forward network, FFN)和注意力参数。

ALBERT的参数量与BERT参数量的比较:

不同策略参数共享的性能差异

句子对次序预测任务(SOP)

原始BERT中采用下一句子预测(NSP)任务来建模句子对之间的信息,希望在下游相关句子对任务中有更好的表现。ALBERT将NSP任务替换为相对更困难的SOP任务,即预测两个句子的顺序是否正确。其中,正例数据是来源于相同文档中的两个句子,而负例数据是交换位置后的两个句子。

SOP和NSP两者的比较

总结

ALBERT xxlarge以更少的参数量实现了更好的结果,这是ALBERT的主要优势。但从训练速度上来看,其相比于BERT却慢了三倍,这说明减少参数量不一定会加速模型的训练速度。从ALBERT的改进策略来看,我们可以得出以下简单的结论:增大模型结构、引入更复杂的预训练任务是提升模型的性能有效手段。

自然语言处理基础 语言理解

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:DAOS 分布式异步对象存储|控制平面
下一篇:Maven命令
相关文章