达观智能文档审阅系统,推动证券非结构化文档处理提质提效
随着智慧证券的推动发展,利用OCR、NLP等先进技术解决基金确认单、托管划款指令、基金宣推材料审批、通用表格解析多类场景的非结构化文档的数据识别与处理,实现相关场景非结构化文档的识别解析、智能审核及与业务对接等,并通过平台化建设提供一定的可拓展性和泛化能力。实现提高业务自动化率、节省人力,提升业务办理效率、提高满意度,降低业务差错率、促进业务创新等目的。
以某一线城市的证券经济管理部门业务为例,需要对基金公司发布的宣传海报里的过往业绩、基金评价、风险提示、股东背景等要素按照证监会要求进行审批。业务人员接收到的海报材料五花八门,且不同基金公司不同类型的样本质量参差不齐,使得业务人员花费大量时间在审核过程当中。
达观智能文档审阅系统可以从样本中找出关键审核要素,通过对现有业务痛点的深入分析,基于OCR、NLP、机器学习等金融科技能力构建非结构化文档智能审核平台,将非结构化文档数字化、结构化,实现内容的自动识别、智能提取、智能审核,在节省人工的基础上达到提质增效的目的。
智能文档关键要素抽取预审
以基金公司宣推海报为例:
1、通过全篇海报副文本提取,支持禁用词库灵活配置,机器智能审核海报语义合规性。
禁用词库自由配置,可根据不同词性做词库归类与分级
2、针对宣推样本特点,针对性表格抽取模块,对表格进行规则抽取与组合抽取,将基金公司与业绩评价组合起来变成可能,通过模型增加召回率。
灵活新增新的禁用词,次数代表该禁用词被击中的次数
3、通过字体、位置信息,“理解”文本,分辨出股东背景、风险提示、特殊基金等重要信息进行审核。
根据证监会不同时期要求,对海报新增审核规则。规则分为逻辑 与必有必无规则,支持灵活配置与调整。
首先会进行机器预审,抽取原文绿色则是通过,红色则是预审不通过。并且在原文中会对关键元素高亮以及定位,快速定位问题核实结果。根据不同规则,在审核详情中清晰明了的展示审核依据,便于业务同事快速判断预审准确性。
截止2021年10月,达观智能文档审阅系统已完成对120多家基金公司的确认单解析,支持PPT、复杂类、一页通等七类宣推海报的解析与100多个关键要素的识别和抽取,通过智能识别、智能审批,有效节省业务人员的审核与比对的工作时间,并降低业务的差错率,真正实现了信息化、智能化办公。