达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

达观智能OCR快速响应各类复杂场景,助力业务流程快速搭建

达观智能OCR让场景快速跑起来

10分钟,给你一个跑起来的业务场景。

当我们提取一张表格、一篇文章的关键内容,可以通过人工直接摘录完成。假如需要处理一百张表、一千篇文章,它们类型一样、内容不尽相同,只能用人工一篇篇操作吗?给“达观智能OCR平台”10分钟,通过10分钟的标注、训练,即可把所需的文档内容都提取出来,方便后续利用。不论是中文还是外语,或是多语言混合文档,又或者文档中内含印章、信息遮盖、模糊、污损…达观智能OCR对实际办公中的各类复杂场景,都能展示出出色的识别效果。

图1 达观智能OCR平台

达观智能OCR平台为企业提供一站式文档识别解析解决方案,打通了底层文字识别到上层结果化抽取应用,平台可以处理JPG、PNG、BMP、TIFF、PDF等常见图片和文档格式,支持多页文件。独有的图像信息结构化抽取平台满足各类复杂票据、表单的结构化抽取需求,包含多种开箱即用的模型,准确率高、识别率高。

达观智能OCR平台的实现业务过程 

基于达观的行业领域数据积累、工程实施经验和算法能力优势,达观智能OCR具备可自定义的处理能力,可以灵活响应实际业务场景当中的新文件类型处理需求。业务人员应用达观智能OCR平台可通过标注、训练、测试和上线的流程快速处理新文件类型的OCR识别需求。
当我们明确场景及关键内容信息提取范围,即可通过OCR智能处理平台,将稿件信息登记表归为一个类型,为该类型新建一个分类,称之为一个新的文档类型,如图2所示:

图2新建文档类型

基于这样的一个分类,填加需要抽取的字段,如图3所示:

图3 新增字段

将对应的模板文件上传到系统中进行标注,人工的方式将抽取的字段罗列在该模板中,让OCR智能处理系统进行自学习。当系统学习完成后,再上传类似的文件文档进行识别时,即可实现关键内容的精确抽取,展示在右侧详细列表中。

图4 效果展示

从第一步新建文档类型、抽取字段,到模板标注,系统学习一份新文档模型到完成内容解析前后过程最快只需“10分钟”。非技术人员也可快速上手,分钟级搭建一个应用场景并完成关键信息批量抽取。

利用达观智能OCR建设数字化平台 

以某物流运输公司为例,该公司面向未来业务发展的方向,找到达观数据为其建设数字化平台,希望利用人工智能技术赋能实现业务的数字化、智能化升级。达观数据在建设过程中为客户审核业务场景搭建了“达观智能OCR系统”通过达观智能OCR平台的模型训练,在极短的时间内新建运输单模型。实现快速提取运输单、送货单中的订单号、收货人、运输方式信息,分钟级响应客户其他系统的关键内容录入和核对需求。

图5 样例文件效果

目前,达观智能OCR已在金融、保险、医疗、交通、教育等诸多行业有了深入成熟的应用。达观数据针对各行业不同的业务场景特色场景和需求,基于功能强大的达观OCR,结合自主研发的NLP、RPA、知识图谱等能力,构建出可扩展的自动化办公产品矩阵,为企业客户提供可落地的文本智能应用。