论文解读系列十五：文档结构分析-伙伴云

网友投稿 661 2022-05-29

1 文章摘要

提出一个端到端的文档结构分析方案（DocParser），对文档（扫描版、图片版等）进行结构提取，包括实体识别（这里实体指所有需要检测的元素，包括文本、行、列、单元格等）和关系分类。基于TEX和synctex，通过反向生成TEX代码生成弱监督标签。

2 解决方案

给定文档集D，目标是生成层级结构T，其中T包括实体及实体间的关系Relations。对于实体，E指文档中的各种元素，如数字、表、行、单元格等，每个实体包括3个特性，1. 语义类别, 2. 检测框（bouding box）的坐标，3. 置信度(confidence score)。对于Relations，R由三元组(Esubj,Eobj,Ψ) 给定，关系类别Ψ ∈ {parent of ,followed by,null}，null表示其它无关的实体，例如页眉页脚。

实体E及其关系R的组合足以重构一个文档的层级结构T。

难点：实体外表相似、层级嵌套nested，以及不同文档具备多样性。

2.1 ImageConversion

将输入文档图转化成分辨率为ρ的图片，这个分辨率是预定义的，然后所有图片resize到固定大小φ（必要时补零zero padding）；之后图片经过预处理，所有图片的RGB通道都类比MS COCO数据集进行标准化处理，这么做是为了后续初始化模型的时候利用这个数据集的预训练的权重。

2.2 EntityDetection

利用 Mask R-CNN构造模型，做图像分割识别一个文档图片内的所有实体。这个模型以上一阶段产生的图片作为输入，输出一个实体列表E1,...,Em。对每一个实体， Mask R-CNN确定：1）它的方形bounding box，2）confidence score置信度，3） a binary segmentation mask （区分bounding box里检测的实体及背景像素pixel），4）实体的类别标签，共23类，CONTENT BLOCK, TABLE, TABLE ROW, TABLE COLUMN, TABLE CELL, TABULAR, FIGURE, HEADING, ABSTRACT, EQUATION, ITEMIZE, ITEM, BIBLIOGRAPHY BLOCK, TABLE CAPTION, FIGURE GRAPHIC, FIGURE CAPTION, HEADER, FOOTER, PAGE NUMBER, DATE, KEYWORDS, AUTHOR, AFFILIATION。

2.3 Relation Classiﬁcation

基本是启发式的算法。

2.3.1 nesting（ parent of）这里分4步:

h1: Overlaps，通过IOU判断检测框之间的重叠关系；

论文解读系列十五：文档结构分析

h2: Grammar Check，语法检查；

h3: Direct Children，对候选列表修整，只保留直系孩子direct children，sub-children会被移除；

h4: Unique Parents，对候选列表修整，使每个实体只有一个父节点；

2.3.2 ordering (followed by）

实体根据自然阅读顺序排列（比如从左至右）。默认情况下，所有实体都将经过这两种heuristics处理：

Page Layout Entities主要是确定页面是单栏布局或多栏布局；

Reading Flow:根据阅读顺序重组节点顺序；

3 实验结果

在ICDAR表格结构分析的效果：

EI智能体 OCR 机器学习

你好，请问我论文里面引用的句子，查重为什么显示的都是红色，我插入脚注了呀？

661 2022-05-29

论文 解读 系列 十五：文档结构分析

怎样给不同的柱子上添加不同的标准误差线（怎么给柱形图加误差线）

你好，请问我论文里面引用的句子，查重为什么显示的都是红色，我插入脚注了呀？

怎样论文查重（怎样论文查重报告）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

客户管理工具是什么？

简单进销存库存管理盘点

友情链接

论文解读系列十五：文档结构分析

微信扫一扫：分享

推荐文章

最近发表

热评文章

友情链接