2019数字中国创新大赛:文化传承汉字书法多场景识别赛题解读

网友投稿 714 2022-05-30

2019年5月6日至8日,第二届数字中国建设峰会将在福州海峡国际会展中心举行。本届峰会的主题是“以信息化培育新动能 用新动能推动新发展 以新发展创造新辉煌”。峰会定位为我国信息化发展政策发布平台、电子政务和数字经济发展成果展示平台、数字中国建设理论经验和实践交流平台、汇聚全球力量助推数字中国建设的合作平台。

2019数字中国创新大赛:文化传承汉字书法多场景识别赛题解读

具体内容解读:

我们是华为云EI企业智能体,是华为云的大数据与人工智能团队,提供其中包括昇腾芯片、MindSpore框架、ModelArts平台,以及上层API的全栈式服务。我们一共有超过45项产品,一百多项功能,文字识别就是我们一个重要产品之一。

我们OCR服务包括通用类,票据类,证件类,行业类,模板定制等,服务国内和泰国、新加坡等众多国外内客户。

书法是中国的瑰宝,是中华民族对人类审美的伟大贡献。在全球化里、电子化今天,很多人,尤其是很多青年学生,大家对书法越来越陌生,基于书法的文化传承出现断层。相信大家都听过王羲之的兰亭序,这不仅是杰出书法作品,也是中国历史、乃至世界历史上杰出的文化瑰宝之一。针对这个问题,我们提出了文化传承这个赛题。我们希望从这个赛题让参赛者系统学习和利用人工智能技术,因为这里要用到人工智能非常重要的两个能力,一个是物体检测、一个是把图片转化为文字的序列化算法。同时让大家感受传统中国文化。

文字识别本身有其巨大的社会商业价值,比如金融行业的票据识别、医疗行业的化验单识别、物流行业的快递单识别、自动驾驶的路牌识别等。我们现在在跟故宫合作,解决古代书法的识别,跟这个赛题切合。

文字识别应用场景非常广泛,包括物流与制造业,金融保险,医疗教育,政务政法,互联网,总之所有有文档的地方都需要文字识别,代替人工录入,提升业务信息化效率。这也非常契合国家工业4.0战略,用机器代替复杂烦琐的人工工作。

赛题难点有以下几点。首先赛题数据为模拟古文写作风格生成的书法类型的图片,基本是按照文字竖列标注的,与日常习惯差别很大。

其次个别字符在测试集里出现了,但在训练集却没有出现,相关字段识别错误的可能性极大。

第三有近上万个字符,需要分类的数量很大;同时因为汉字形近字较多,及其容易识别错误。

第四图片场景非常复杂,对文字识别形成强烈的干扰;文字存在扭曲、倾斜、大小差别很大等特点。

赛题评判标准为文字字段识别F1值,即参赛者不仅需要保证整个字段完全正确,需要同时保证字段识别结果的precision和recall。

赛题结果还是比较令人满意的,前两名成绩都是98%以上,比我们预期的96高了不少的。可见选手能力都是非常强的,最后我们希望通过这次比赛能够让参赛者参与人工智能新挑战,弘扬中华民族传统文化,预祝大赛圆满成功。谢谢大家。

人工智能 企业数字化

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:项目管理系统的三大核心能力及作用介绍
下一篇:Mybatis超详细学习笔记(一)小白入门HelloWorld
相关文章