达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

深交所喻华丽:证券市场文本智能化应用 | 世界人工智能大会达观数据论坛

在2020年世界人工智能大会云端峰会中,达观数据与浦东青联联合举办了“智能时代,语你同行”行业论坛,围绕语言智能,与多位行业专家与学者展开了一场精彩线上交流盛宴。

pic_001

深圳证券交易所总工程师喻华丽在论坛上进行了《证券市场文本信息智能化应用》的主题分享,以下为演讲内容精华整理,观看大会回放可直接下拉最下方二维码进行精彩回顾。

很高兴有机会给大家分享交流证券市场文本信息智能化应用实践,感谢达观提供这样的平台。

今天分享的内容包括:

  1. 证券行业文本信息应用情况
  2. 近年来深交所开展的一些应用实践
  3. 未来的一些工作思路

证券行业文本信息应用情况

深圳证券交易所作为一家全国性的交易所,肩负着市场组织、监管和服务三大职能。经过近30年的发展,深交所已进入世界交易所的前列,主要业务和技术指标表现突出,比如成交笔数连续多年全球第一。
证券市场参与者众多,信息密集。市场每日运行,产生和处理大量数据信息,包括结构化的市场交易数据,也包括非结构化的信息披露公告、市场舆情资讯、公函报告等文本数据信息。
pic_002
在当今互联网大数据时代,文本信息增长迅速,已成为一个重要的数据类型、各机构重要的数据资产。有统计显示,非结构化数据的占比达到80%。在证券市场,文本信息量非常大,仅上市公司公告和研报,年增幅超过20%。
面对海量的文本信息,人们对其蕴含的业务价值日益重视,文本信息对证券市场带来的冲击影响也加深。一个公司公告、新闻、甚至一条推特都有可能引发市场股价的大幅波动。也正因如此,无论市场经营机构,还是监管机构近年来加大了对文本信息处理的关注度和投入。
文本信息处理是一个基于内容理解的智能化处理。近年来AI、大数据技术的发展为这种智能化处理提供了可能。
要做好证券文本信息智能化处理并非一件易事。它通常需要将AI技术和证券行业领域知识相结合,理解好证券文本信息内容,挖掘内在的业务价值,从而赋能业务和市场。
相比其他行业文本处理,证券文本智能化处理具有自身需求:
  1. 文本信息量大且结构复杂
  2. 资本市场专业性强,涉及领域知识多,且处理要求高
  3. 实时性、准确性要求高,文本信息深度价值挖掘能力要求强
针对证券文本信息需求,近年来行业机构积极开展应用探索。根据行业金融科技中心统计,最近三年有关文本信息处理课题逐年增加,主要聚焦在两个领域:
  1. 侧重于文本信息技术处理:例如金融文档结构的语义分析
  2. 围绕金融信息场景应用:例如智能舆情应用、智能投顾和智能投研等

深交所在文本信息智能化应用的实践

围绕着这资源的应用处理,深交所经历了从有纸化到信息化、电子化再到最近的数字化三个阶段;在处理方式上,也在从简单的基于内容展示到基于内容的智能化理解,以更好地支持市场监管和市场服务。
pic_003
深交所在智能文本处理方面采用如下发展思路:一方面积极运用当前最新技术成果,如NLP和AI技术,另一方面充分发挥行业自身的领域知识,加强领域知识训练。在此基础上,先开展探索预研,将效果好的智能化分析模型算法进行工程化落地研发,将成果应用于实际业务。在经验总结基础上,再推广应用到其他场景、行业机构。
智能化文本信息处理一项探索性很强的实践工作。近年来,深交所依托行业金融科技中心,开展场景探索、关键技术研究和模型优化等方面探索预研工作。已开展了证券文本信息抽取技术、面向证券市场运行监测智能化应用技术、信息披露文档合规性分析,智能舆情分析关键技术研究等课题研究。
深交所非常重视文本信息平台工具建设。根据市场文本信息处理业务的各种场景,集成NLP主流常用的模型、算法、工具,构建功能完善的自然语言处理平台,以便更好地支持各种场景下文本处理分析业务。
该平台可支持模型研究人员、工程开发人员、业务应用人员的使用,并且形成了一个闭环。此外该平台的模型具有开放性,支持业务模型算法的扩充、迁移与优化升级,以满足不同业务场景的文本智能化处理需求。
其次,我们还同样重视行业领域知识的积累与构建。不仅积累大量的行业标准化标注训练样本,同时构建了行业领域知识规则库。此外,针对舆情资讯文本,为了更好研究资讯文本重要事件识别,构建了公司舆情事件分类体系,以提供更加精细化的资讯内容服务。
此外,深交所还关注行业知识图谱构建(如产业链知识图谱,工商图谱等),并将这些图谱与文本智能化处理相结合,以发挥图谱所蕴含的知识,更好地去“读懂”“理解”文档信息内容。
pic_004
在具体应用场景方面,目前智能文本处理已经应用于智能监管、智能监察、舆情风控、智能舆情和智能服务,在市场监管和市场服务方面发挥了重要的作用。接下来,将结合智能监管和智能舆情,具体介绍三个实际应用案例。

上市公司信息披露公告类别识别应用

该系统是针对上市公司提交的披露公告进行公告别类自动识别,辅助业务监管人员对重点公告类别进行甄别复核,并提醒业务操作。该系统目前可支持:定期报告、临时报告公告,文本类别涵盖股东大会、资产操作、年报披露、利润分配、停复牌等18类特定业务公告甄别等,系统准确率已达92%以上,提升了公司信息披露监管效率。 

重组公告信息抽取审核

依据业务监管人员审查要点对重组公告的文档进行特定字段信息抽取,也是文档数字化信息的重要基础。该系统以前期技术攻关课题成果为基础,通过对原始的文档进行解析,然后对特定数据进行标注,运用深度学习模型之后,实现了关键字段信息的结构化抽取。目前这抽取技术能支持word和PDF文档下的实体类型、概要类型、数字类型、关系类型、表格类型等类型字段抽取,总体抽取准确率达到了90%。现在这项技术还准备拓展应用于年报、基金公告、注册制公告审核字段信息抽取。 

智能舆情分析系统

该系统是面向舆情资讯类的文本信息智能化处理,目前一期功能已经上线,与其他系统相比,该系统具有以下特点:一是数据来源广,涵盖主流媒体、微信公众号、微博等自媒体数据;二是智能化应用多,应用了比较多的NLP技术,三是分析功能多,如话题聚合,追踪溯源,舆情订阅等,四是推送速度快,支持网页、微信和APP推送查阅。 

未来探索思路

最后,简要分享深交所未来发展思路:

加强文本信息智能化业务赋能

一是要拓展业务监管与服务应用场景。例如,让文本智能分析可以更加深入,支持更聚焦的专题分析,拓展服务至固收、基金等各个业务条线。二是提升服务模式,让文本信息服务可更加便捷化和个性化。最后提升服务效果,让文本信息服务智能更加精准,更加快捷和高效。

提升文本信息智能化平台能力

继续增强NLP平台服务能力,完善行业领域知识库,在此基础上构建数据中台能力,从而全面支持各类文本信息智能化应用。
pic_005

积极推动行业成果交流共享与应用推广

作为行业核心机构,将继续发挥行业引领作用,依托行业金融科技中心,加强与行业合作,组织行业课题联合攻关研究,实现行业文本信息处理关键技术和应用推广上的突破。对于课题研究成果,例如NLP平台,语料、模型算法以及应用服务进行行业共享,推动行业文本信息处理共同进步发展,形成一个良好的文本信息处理数字化生态。
未来,深交所将密切跟进数字科技变革浪潮,以数字化、智能化、网络化、国际化为抓手,争创世界一流交易所IT,全面服务于深交所成为国际领先的创新资本形成中心、打造世界一流证券交易所的发展愿景和战略目标。我的分享到此结束,谢谢大家!