深度学习核心技术精讲100篇(十七)-多标准中文分词( Multi-Criteria-CWS)

网友投稿 583 2022-05-29

前言

深度学习核心技术精讲100篇(十七)-多标准中文分词( Multi-Criteria-CWS)

论文:https://arxiv.org/pdf/1712.02856.pdf  ;

代码和语料:https://github.com/hankcs/multi-criteria-cws 。

本文参见上面论文及代码,介绍了一种简洁优雅的多标准中文分词方案,可联合多个不同标准的语料库训练单个模型,同时输出多标准的分词结果。通过不同语料库之间的迁移学习提升模型的性能,在10个语料库上的联合试验结果优于绝大部分单独训练的模型。模型参数和超参数全部共享,复杂度不随语料库种类增长。

自然语言处理,特别是中文处理中,语料库往往珍稀且珍贵。具体到中文分词,也是如此。为了做出一个实用的系统,不光需要高效的算法,大规模语料库也必不可少。然而对于缺乏经费的研究团队和个人,却往往只能得到sighan2005等屈指可数的几个小型语料库。即便如此,这些语料库的标注规范还互不兼容࿰

中文分词 深度学习

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Swift之利用API可用性解决App Extension无法编译
下一篇:基于javaweb SSM邮件收发信息系统设计和实现以及文档
相关文章