市面上的招股说明书,动辄三四百页,关键的发行人信息、财务信息、股权结构图,如何快速查找?券商研究报告,几十页上百页,核心图表、数字、观点如何有效获取?合同中,关键条款如何快速定位?在信息过载时代基于市面的需求,达观数据自主研发的智能文档审阅(IDP)系统能从几百页的长文档中智能提取实体、关系级别信息,也能提取关键图表、段落、章节等文档要素级别信息,可百倍提升阅读效率。
达观的智能文档审阅(IDP)系统如何做到支持全内容提取:
一、达观拥有强大的自研文档标注功能
- (1) 支持文字划选、框选、表格内容一键标注;
- (2) 支持图片、表格框选;
(3) 支持表格增删线条、合并/拆分单元格等多种操作;
- (4) 支持字段组合标注;
二、 依靠达观的独家版面还原技术
- (1) 可还原文件的页眉页脚、图、表、标题、段落、目录等版面信息。
- (2) 支持对还原结果进行编辑,包括修改文字和表格结果。
- (3) 支持直接导出文字内容、图片、表格结果。
- (4) 支持API对接输入,为后续信息提取提供底层技术能力。
版面还原示例图
三、达观自有模型训练平台,完成AI自动提取
达观基于NLP、深度学习技术,提供了强大易用的模型训练平台。
- (1)在系统中内置多种算法,可针对不同的抽取关键字选择不同的算法,模型参数可动态调整。
- (2) 元素抽取算法可以支持抽取如段落,图片,表格等内容。
- (3) 同时支持模型导入导出,可在不同场景下进行模型的迁移。支持现有模型增量训练,大幅提升训练效率
内置多种算法
招股书抽取模型示例
私募基金合同抽取模型示例
据了解达观数据的全内容关键信息提取产品,已在某交易所、头部券商研究所、头部券商托管部门部署应用,结合行业多年经验积累,已形成招股说明书提取、研究报告审核、私募基金合同提取等多个开箱即用模型。未来将持续积累,为客户数字化智能化转型、工作效率提升提供利器。
开箱即用模型示例