用函数计算出来的结果怎么总是显示#VALUE!怎么解决(excel中函数计算后显示不出结果怎么办)
956
2022-05-29
相比于BERT模型,ALBERT主要做了两项改进,一是减少了模型参数量,而是提出了更有效的句子对顺序预测任务。
减少模型参数的策略
词向量矩阵分解
传统的词向量矩阵大小为
V
×
H
V \times H
V×H,其中
V
V
V是词典大小,
H
H
H是模型隐状态大小。为了降低词向量的参数量,ALBERT将词向量矩阵拆分为两个小矩阵
V
×
E
V \times E
V×E和
E
×
H
E \times H
E×H,其中
H
>
>
E
H>>E
H>>E。通过这种策略有效减少了词向量参数。
跨层参数共享
原始BERT由多层transformer的encoder构建而成,为了减少参数量,ALBERT使不同层共享同一份参数,主要包括前向神经网络层(feed-forward network, FFN)和注意力参数。
ALBERT的参数量与BERT参数量的比较:
不同策略参数共享的性能差异
句子对次序预测任务(SOP)
原始BERT中采用下一句子预测(NSP)任务来建模句子对之间的信息,希望在下游相关句子对任务中有更好的表现。ALBERT将NSP任务替换为相对更困难的SOP任务,即预测两个句子的顺序是否正确。其中,正例数据是来源于相同文档中的两个句子,而负例数据是交换位置后的两个句子。
SOP和NSP两者的比较
总结
ALBERT xxlarge以更少的参数量实现了更好的结果,这是ALBERT的主要优势。但从训练速度上来看,其相比于BERT却慢了三倍,这说明减少参数量不一定会加速模型的训练速度。从ALBERT的改进策略来看,我们可以得出以下简单的结论:增大模型结构、引入更复杂的预训练任务是提升模型的性能有效手段。
自然语言处理基础 语言理解
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。