Transformer

1.引言 本文研究了文本行识别的问题。与大多数针对特定领域(例如场景文本或手写文档)的方法不同,本文针对通用架构的一般问题进行研究,该模型结构不用考虑数据输入形式,可以从任何图像中提取文本。本文研究了两个解码器(CTC[1]和 Transformer[2])和三个编码器模块(双向LSTM[3]、Self-Attention[4]和GRCL[5]),通过大量实验在广泛使用的场景和手写文本公共数据集上...

特别声明: 版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。