版面解析介绍
版面作为信息的组合排列形式,无论是杂志、报刊、海报还是文章,各式各样的版面承载了不同层次的内容表达。在传统文档处理任务中,系统的处理核心是文本,围绕文本使用先进的智能算法实现分类、抽取、摘要等任务,但是对文档中的图、表、公式等元素,则更多地限定于领域方法来处理。对于Word、PPT、PDF等格式文档,可以通过协议格式提取其中的元素还原或解析。但是对于图像文档,则具有更高的挑战,应用图像或多模态算法解析图像并获取其中的元素结果,是文档处理中统一版面解析能力的落脚点。图像文档的版面解析结果由文档元素组成,并且可以转换为其他格式,因此文档元素是所有版面的灵魂要素。达观复杂版面解析服务作为智能文档处理核心能力,为诸多业务场景提供有力支撑。文档版面样式千变万化,以下选择部分典型数据做场景和能力介绍。版面解析首先需要对版面的要素进行划分,通常被定义为目标检测或分割任务来实现,下图为版面要素的分割试例。
版面解析场景展示
一、企业合同比对
在企业业务往来中,企业法务、财务需要审核企业签订的各类合同,如需要确保盖章版本合同与原始审核过的电子合同完全一致。盖章版合同是将电子合同打印为纸质文件加盖双方公章再扫描存档,特别存在部分为双栏多栏形式如果下图,这时候可利用图像版面解析技术对文档排版进行识别,再按顺序逐个比对印版本和原合同内容。
二、制造业知识库构建
制造企业中的大量文档如工艺流程文档、使用手册、合规规范文档、质量手册等等大多以纸质文档的形式存在,随着数值化智能化转型的加速,制造企业需将这些纸质知识识别解析提取为电子知识,进一步构建指导生产制造的知识图谱。
三、金融文档识别
金融页有大量报告如财务报告、研究报告、一级二级市场股债发行文档等等,这些文档包含金融市场活动所需数据、咨询信息。对文档进行解析、获取关键信息至关重要。如版面解析财务报告种企业财务表格,将pdf文件中无序的文字还原为有序表格,并进一步按财务含义进行数据分析对市场投融资活动至关重要。
同时金融企业也需要对其发布的文档例如研报进行质控审核,确保其发布的报告准确无误,通过版面分析分析分析研报、及其底稿文档,进而实现图片审核、表格审核、数据审核等功能。
四、通用文档信息构建和还原
版面分析技术可将以word、pdf、图片等非结构化文档存储的信息还原为半结构化的电子数据,是非结构化文档信息利用首要任务。