达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

大语言模型在企业内部审计中的实践分析

在当前的企业环境中,内部审计面临着数据量大、业务复杂度高等挑战。随着人工智能技术的发展,特别是大语言模型(LLM)的应用,企业内部审计的实践正在经历一场革命性的变化。以下是对大语言模型在企业内部审计中应用的深度剖析。

技术概览与应用场景

大语言模型,以其强大的文本处理能力和深度学习算法,正在被广泛应用于企业内部审计的多个方面

  1. 审计知识智能问答:通过构建审计知识库,大模型可以快速准确地回答审计人员的问题,提供业务知识、经验、法规等信息。
  2. 审计文书智能编写:利用大模型的文本生成能力,可以自动生成审计通知书、实施方案、取证单、底稿和报告等文书,提高审计效率。
  3. SQL分析模型智能生成:大模型能够根据审计需求自动生成SQL语句,帮助审计人员进行数据分析,无需深入了解SQL语法和数据库技术。
  4. 审计方案智能设计:大模型可以根据历史审计经验和知识库,自动提供审计思路和数据分析方案,提升审计效率。
  5. 审计信息化智能教育培训:大模型可以智能生成审计信息化教育培训所需的测试题库,提供个性化的课程知识分析与指导。

审计知识智能问答搜索实践案例

在银行的审计工作中,存在大量非结构化文本数据,涵盖了业务数据取证分析等方面,但缺乏一个统一的管理平台,依赖于人工经验进行工作。围绕文本数据治理,达观数据银行审计部开展智能审计项目建设——搭建统一的搜索应用平台,从非结构化文本数据出发,通过自然语言处理、光学字符识别等先进AI技术,可对复杂、分散存储的多源异构数据进行文档归集、内容解析、比对等,同时,它还配备了强大的语义级别垂直领域搜索引擎,以便更好地管理智能化搜索,有效地解决审计工作中存在的信息库建设、信息检索、信息溯源等问题,从而提高提高整体审计业务能力,并向全行共享,有助于推动全行的合规建设,进而提升应用的价值。

审计业务面临数据信息和系统架构的分散性、异构性和复杂性,深挖各类数据的价值一直是挑战,银行内部数据的有效利用率并不高,尤其是审计部门内部大量文本数据未形成资产。问题很多:

难点1:非结构化数据治理,数据多源异构,审计文档多为过程性文档,文档类型十分多样(PPT、Excel、Word、PDF、图片),文字解析难度大

难点2:搭建统一搜索平台,关键词搜索召回效果不达预期,上游数据推送不稳定导致搜索数据不完整、不准确

难点3:数据不规范,知识图谱三元组构建遇到阻碍,知识图谱的数据更新需要保证准确性、及时性

难点4:审计知识文本和笔记较为敏感,需要设计严密的权限体系

达观数据建设了智能审计知识库项目,一是实现数万份的多系统内部文档、数十万份外部监管政策文档等海量异构数据存储与分析。且图片、文档、表格解析率超95%,可实现图片、文档、表格中所有文字可搜,满足一站式搜索服务;二是搜索速度快,标题和全文检索速度为毫秒级别;三是搜索智能化,搜索服务中已上线了超数十种NLP模型算法用于增强对搜索词的语义理解,实现了 意图识别、模糊搜索、和搜索词纠错、标签提取等功能。成为审计人员日常必不可少的内外部数据快速获取、信息关联 的数智平台 。一方面为常态化内控评估与审计评价夯实技术支持,另一方面探索实现审计能力内部输出,助力一道和二道防线的内控建设。

本案例所用达观数据新一代大模型智能知识管理系统,它以达观自主开发的“曹植”大语言模型为基座,坚持训练数据与算法模型自主可控,为银行提供了“算力+模型”的全套国产化信创方案。

该案例数据治理成果显著,为银行审计部门激活了大量历史文档并转化为数据资产。该方案面向审计部门内部、银行内部提供服务,被广泛应用,可于工作全流程提升信息获取速度,且提升50%以上。其中,智能审计知识库项目月活部门占比率最高超80%。立足内部审计、内控合规等领域建设,接入数十万份非结构化文件;保障跨系统对接数据的实时性、稳定性;应用数十种NLP模型;为审计项目、业务合规自查提供支持,促进业务合规稳健发展。