论文解读系列十二：SDMG-R结构化提取—无限版式小票场景应用

网友投稿 753 2025-04-03

【摘要】在文档图像中提取关键信息在自动化办公应用中至关重要。传统基于模板匹配或者规则的方法，在通用性方面、未见过版式模板数据方面，效果都不好；为此，本文提出了一种端到端的空间多模态图推理模型（SDMG-R），能有效的从未见过的模板数据中提取关键信息，并且通用性更好。

源码：https://github.com/open-mmlab/mmocr/tree/4882c8a317cc0f59c96624ce14c8c10d05fa6dbc

1 背景

在文档图像中提取关键信息在办公自动化应用中至关重要，比如常见的存档文件、收据小票、信用表单等数据场景快速自动化归档、合规性检查等等。传统基于模板匹配或者规则的方法，主要利用的固定版式模板数据的布局、位置坐标信息、内容规则等，这些信息局限性很强，因此在通用性方面、未见过版式模板数据方面，效果都不好。为此，本文提出了一种端到端的空间多模态图推理模型（SDMG-R），能充分利用检测文本区域的位置布局、语义、视觉信息，相比之前获取的信息的更充分丰富，因此能有效的从未见过的模板数据中提取关键信息，并且通用性更好。

2 创新方法及亮点

2.1 数据

在之前的关键信息抽取任务中，常用的数据集大部分是SROIE、IEHHR，但是他们训练集、测试集有很多公共模板版式，因此不太适合去评估或验证通用信息提取模型的通用能力；基于以上原因，本文构建一套新的关键信息抽取任务的数据集，并命名为WildReceipt：由25个类别组成，大概有50000个文本区域，数据量是SROIE的两倍以上，详细信息如下表格2-1所示：

表2-1 关键信息抽取任务数据集

2.2 创新点及贡献

提出了一种有效的空间多模态图推理网络（SDMG-R），能充分利用文本区域的语义、视觉两个维度的空间特征关系信息；

构建了一套基准数据集（WildReceipt），是SROIE数据量的两倍，而且训练集版式模板和测试集版式模板交叉很少，因此可以用来做些通用关键信息抽取任务的探索研究；

论文解读系列十二：SDMG-R结构化提取—无限版式小票场景应用

本文利用了视觉、语义特征，如何利用好两者数据，本文做了相关验证：特征融合方法的有效性（CONCAT、线性求和、克罗内克积），最终结果克罗内克积比其他两种特征融合方法高两个点左右，如下表格2-2所示：

表2-2 特征融合方法对比结果

3 网络结构

SDMG-R模型整个网络结构如下图3-1所示，模型输入数据由图片、对应文本检测坐标区域、对应文本区域的文本内容，视觉特征通过Unet及ROI-Pooling进行提取，语义特征通过Bi-LSTM进行提取，然后多模态特征通过克罗内克积进行融合语义、视觉特征，然后再输入到空间多模态推理模型提取最终的节点特征，最后通过分类模块进行多分类任务；

图3-1 SDMG-R网络结构

3.1 视觉特征提取详细步骤：

输入原始图片，resize到固定输入尺寸（本文512x512）；

输入到Unet，使用Unet作为视觉特征提取器，获取得到CNN最后一层的特征图；

将输入尺寸的文本区域坐标（）映射到最后一层CNN特征图，通过ROI-pooling方法进行特征提取，获取对应文本区域图像的视觉特征；

3.2 文本语义特征提取详细步骤：

首先收集字符集表，本文收集了91个长度字符表，涵盖数字（0-9）、字母（a-z，A-Z）、相关任务的特殊字符集（如“/”, “n”, “.”, “$”, “AC”, “ ”, “¥”, “:”, “-”, “*”, “#”等），不在字符表的字符统一标记成“unkown”；

其次，然后将文本字符内容映射到32维度的one-hot语义输入的编码形式；

然后输入到Bi-LSTM模型中，提取256维度语义特征；

3.3 视觉+文本语义特征融合步骤：

多模态特征融合：通过克罗内克积进行特征融合，具体公式如下：

代表的是克罗内克积的操作，是一个可学习的线性转换，代表的是融合的特征。

3.4 空间关系多模态图推理模型：

最终的节点特征通过多模态图推理模型完成，公式如下：

代表的是所有文本节点的特征向量（视觉+语义），是节点与节点之间边的权重，空间关系编码通过如下公式计算得到：

和分别是节点与节点之间的相对水平距离、相对垂直距离，是归一化常量，是一个concatenation操作，代表的是节点i与节点j之间的相对空间位置距离的编码形式；可视化图推理节点的边的权重，如下图3-2所示

3.5 多分类任务模块

根据图推理模型获取节点的特征，最后输入到分类模块，通过多分类任务输出最终的实体分类结果，损失函数使用的是交叉熵损失，公式如下：

4 实验结果

在SROIE数据集的结果如下表4-1所示：

表4-1 SROIE的精度

在WildReceipt测试集的结果如下表4-2所示：

表4-2 WildReceipt的精度

EI智能体 OCR 机器学习

标签：机器学习归一化智能体

机器学习服务提取图片的特征向量">使用SAP Leonardo上的机器学习服务提取图片的特征向量

753 2025-04-03

AI创想秀，邂逅“华为云ModelArts”征文大赛——第一次收官

753 2025-04-03

如何获取之前训练任务的结果？

753 2025-04-03

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜
进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）
在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐
WPS2016怎么绘制简单的价格表?
什么是在线文档？怎么发在线文档
家居定制平台是什么？">家居定制平台是什么？

论文解读系列十二：SDMG-R结构化提取—无限版式小票场景应用

机器学习服务提取图片的特征向量">使用SAP Leonardo上的机器学习服务提取图片的特征向量

AI创想秀，邂逅“华为云ModelArts”征文大赛——第一次收官

如何获取之前训练任务的结果？

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

什么是在线文档？怎么发在线文档

家居定制平台是什么？">家居定制平台是什么？

友情链接

论文解读系列十二：SDMG-R结构化提取—无限版式小票场景应用

微信扫一扫：分享

机器学习服务提取图片的特征向量">使用SAP Leonardo上的机器学习服务提取图片的特征向量

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

家居定制平台是什么？">家居定制平台是什么？

友情链接