相关背景
近年来,随着多元化金融的快速发展以及商业银行数字化转型的推动,数据作为商业银行重要的无形资产,一直蕴含着巨大的潜在价值。目前,各商业银行在大数据、物联网、特别是人工智能等新技术的推动下,业务对数据分析挖掘的需求量呈井喷式增长,要求也越来越高,特别是非结构化文本数据的处理需求。
在商业银行企业信贷领域,如何处理大量的企业客户信息数据,如何针对融资企业进行全面多维的风险评估,如何处理涉及融资企业的海量非结构化文字和数据信息,以上问题的存在在银行业全面转向电子流程化的进程中,将是不得不面对的挑战。
NLP概述
NLP即自然语言处理,是计算机科学领域与人工智能领域中的一个重要方向,它主要解决计算机和人类(自然)语言的交互问题。在计算机领域,NLP最核心的任务就是研究和处理如何让计算机读懂人类语言,不仅要能理解人类语言的意义,还要表达出给定的深层的意图、思想。
近年来,随着该项技术的不断发展,NLP技术已经愈发成熟,其使用需求和应用场景也越来越广泛,也正逐渐渗透进入商业银行信贷审批领域,并悄然革新着银行业风控管理这条核心业务线,为银行业数字化升级及转型打下坚实基础,逐步成为筑牢银行数字化变革的“新地基”。
银行业对公融资授信痛点分析
对公授信业务是国内商业银行营业利润的主要构成部分,同时,对融资企业进行分析研究也是对公融资授信领域的一大痛点:
- 贷前环节:对融资企业的经营风险进行全面而细致的评估,例如:场景分析、合规性审查、企业财务分析、银行同业授信比较、审批初步结论等;
- 贷后环节:对融资企业的经营风险进行持续的全方面监控。
以上这些工作都需要银行机构投入大量人力物力,对融资企业的海量文档和相关内外部信息进行获取、处理和分析,这些投入也是银行机构的核心成本之一。
针对以上信息的获取、处理和分析,即使是从业多年的综合信贷人员,也需要大量的时间进行数据的结构化处理,但是,采用基于统计和深度学习模型的当代自然语言处理技术,可以实现对上述所涉及到的各类文档信息加工解析的自动化和半自动化处理,特别是在对文本进行信息抽取、文本分类、摘要以及表格解析等领域,可以数十倍甚至千百倍的提升数据处理效率。
不仅如此,NLP还可以对信息进行多维关系的挖掘,评估企业之间的关系,并通过知识图谱直观呈现企业之间的关联,提前设立预警信号,一旦企业关系网内的相关对象出现任意变动,便可根据关系权重,快速地评估对整个关系网的影响程度,这种量变到质变层级的效率提升,以及对产业链条的挖掘,对于银行机构开展业务分析和风险监控是具有十分重要的商业意义的。
达观数据结合对银行业的深刻理解和认知,在过去数年中,结合自身国内领先科技,充分运用了自然语言处理和大数据技术,实现对信贷文档和信贷相关内外部信息进行更为有效的获取、储存、管理以及分析,在决策支持和流程优化等方面为银行信贷业务赋能。同时,在获得海量资料的高速和广域处理能力后,也能够为银行客户提供更有洞察力的风险分析建议,精细化防控颗粒度,提升其业务风控等级,通过技术应用从底层赋能银行的数字化转型。
NLP技术在公司信贷业务中的智能应用
达观数据基于NLP技术的公司信贷业务智能应用,在银行业务管理和风控方面均显现出巨大的价值潜力,通过不断的在业务实践过程中的应用创新,赋能银行机构工作者,从深度和广度两方面大幅提升信息处理效率,让我们有能力为客户提供更有洞察力的风险分析建议。
- OCR智能识别:自动识别出各种证照的信息,并形成结构化的EXCEL、JSON、XML等文件,便于流程自动化处理
- 文本自动分类:利用NLP自然语言处理技术实现信贷文本的批量秒读,对信贷文本进行自动化快速分类
- 自动摘要处理:识别信贷文本与相关资料中的重要信息,实现对信贷文本的自动化摘要处理
- 关键信息提取:利用深度学习模型,自动识别资料中包含的各类风险信号,提取对应的关键风险信息
- 财务报表解析:快速抽取财务报表内容,解决业务人员无法识别或导出PDF文件中的表格,从而无法完成业务审核的问题
- 风险数据关联分析:运用大数据技术收集整合金融机构内部和外部数据,深度挖掘风险点,进行多维度风险信息分析
- 智能风控大盘:可视化展示内外部整合数据的风险信息,提供更直观、更具洞察力的辅助决策平台
核心技术应用
自然语言处理技术
自然语言处理是人工智能和语言学领域的分支学科,将计算机科学、数学、统计学与语言学相结合,既能够做到自然语言理解(理解自然语言文本的意义),也能够达到自然语言生成(以自然语言文本来表达给定的意图、思想等)。
自然语言处理技术广泛应用在人机对话、自然语言生成、文本分类、信息抽取、问答系统、自动摘要、机器翻译等领域。目前的难点在于单词的边界界定、词义的消歧、句法的模糊性、有瑕疵的或不规范的输入、语言行为与计划等。高质量专业语料数据的获取、专业知识体系的构建,以及相关模型工具的选取、调教与训练是这个领域的关键技术能力。
- 语料库:指机器可以处理的有一定规模、结构和知识标记的自然话语材料的集合,是存放语言材料的仓库,是自然语言信息处理必不可少的基础工程。包括生语料(没有任何标注的原始数据语料库)、语料标注(分词、词性标注、命名实体识别、句法依存、信息抽取等)、熟语料(显示更多特征的语言学语料)、领域数据(金融领域、法务领域的数据)、领域字典(行业专家知识)、基础语料(包括中文、英文两种通用语料库)。
- 模型训练与数据处理:实现序列标注训练、分类模型训练、字词向量训练、字典生成。
- NLP字词分析:包括中文分析、命名实体识别、词性标注、同义词分析、字词向量分析、n-gram分析、词粒度分析、未登陆词识别、需求词识别、停用词分析、词频分析、语义距离。
- NLP段落分析:依存文法分析、词位置分析、语义归一化、文本纠错、语言模型、短串分析。
- NLP篇章分析:标签提取、文本分类、主题模型、文本聚类、文本建模、自动摘要、相似度计算、观点提取、文本审核、情感分析、文本生成。
大数据处理技术
大数据,是指能够提供更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。不仅包括用户通过各个节点向互联网主动提供的有形内容,也包括各类用户在使用互联网过程中产生的网络行为及交互数据等。
现在企业所拥有的数据普遍具有一些特点,例如:海量的数据规模、多样的数据类型、快速的数据流转及时效性要求高。利用大数据技术挖掘数据价值,通常需要将搜集来的数据进行系统式的加工、筛选和整理,使其转化为可以分析和利用的数据,数据运用者可以从不同维度来提取所需信息加以运用。比如,可以通过公开渠道接入或获取与企业相关的工商、法律、市场和行业等信息,将这些外部信息加工提取,可以与企业内部数据进行结合,形成新的专业洞见,辅助各类业务和风险决策。
NLP技术在公司信贷业务中的场景应用
资信证明材料-OCR扫描件识别
通过NLP自然语言处理技术及光学字符识别技术(OCR),自动将企业资信证明材料进行归档,并识别扫描件、图片等电子文档文本内容,并形成结构化的excel、json、xml等文件,自动填录业务系统中,实现流程自动化处理。
财务报表-表格解析
抽取企业财务报表内容,自动填录报表数据至银行业务系统中,同时,可对抽取出的财务报表数据进行关键指标计算,如企业资产负债率、流动比率、流动速率等企业核心运营指标,实现一键解析及关键指标自动生成,从而解决业务人员手工录入周期长、强度大、易出错等问题。
企业经营情况-关键要素提取
在企业信贷审批意见书中,综合信贷人员往往需要在长篇幅的审批意见书中提取出需要执行与关注的内容,但是审批意见说明书广泛存在篇幅长、关键信息摘录复杂,重要性理解不一致,执行跟踪困难等情况,NLP技术可以自动抽取文档关键要素,便于业务人员对信息进行查阅,并以高亮的方式进行展现并实现快速信息定位,从而大幅提升企业贷后审批管理效率,提升工作效率,满足监管要求。
借款合同-差异性比对分析
NLP技术可以自动识别出用印版本合同与非用印版本合同之间的差异化信息,大幅提升合同文件核对效率,降低人力成本,帮助银行金融机构防范合同篡改风险的发生。
NLP技术带给公司信贷业务的深远影响
- 赋能银行金融机构从业人员,提升非结构化信息处理的效率,从而提升整体银行金融机构内部信息分析的深度。
- 自然语言处理技术与大数据技术相结合,可以更大规模的覆盖企业内外部信息,让从业人员获得更具广度和深度的信息。
- 相比于传统的人工阅读档案模式信息检索方式,自然语言处理技术的应用将帮助银行金融机构的专业人员更全面获取信息,识别并把握风险点。
- 赋能传统的业务办理模式,通过NLP自动化工具提高了非结构化数据的挖掘能力这将有助于银行金融机构业务人员识别多维度的潜在风险点,以及判定关联信息间的隐藏关系,帮助业务人员提供更有价值和前瞻性的管理建议,可以更全面更系统地进行风控管理。