近日,第四届“达观杯”携手国内年度学术大会CCKS举办的技术测评大赛完美收官。本次大赛由中国中文信息学会语言与知识计算专业委员会主办,达观数据与同济大学联合组织。经过几个月的激烈角逐,实力卓群的国家电网旗下国网信通产业集团从几千名参赛选手中脱颖而出荣获冠军,并在第十四届全国知识图谱与语义计算大会(CCKS-2020)上进行方案分享,达观数据副总裁王文广为冠军团队颁发奖项。
达观数据副总裁王文广(右一)为冠军团队国网信通产业集团代表(左一、二)颁奖
自2017年以来,由达观数据主办的“达观杯”系列算法大赛至今已经举办四届,在全国范围内引起极大关注,目前已成为国内语义理解领域规模最大的算法竞赛之一。从第一届的“个性化推荐”为赛题,第二届“文本分类”;第三届文本智能信息抽取”,到第四届与CCKS联合举办的“基于本体的金融知识图谱自动化构建技术评测”,达观数据持续通过在技术与应用场景之间搭建互通的桥梁,让优秀的技术在解决实际问题中发挥最大价值。
在第十四届全国知识图谱与语义计算大会现场,达观数据副总裁王文广总结了本次测评大赛的情况。本评测任务参考TAC KBP中的Cold Start评测任务的方案,围绕金融研报知识图谱的自动化图谱构建所展开。评测从预定义图谱模式(Schema)和少量的种子知识图谱开始,从非结构化的文本数据中构建知识图谱。
本次评测内容从现实的场景中抽象和简化的任务,因此具有很强的现实意义。由于研报本身所容纳的数据与知识涉及面广泛,专业知识众多,不同的研究结构和专业认识对相同的内容的表达方式也会略有差异。这些特点导致了从研报自动化构建知识图谱困难重重,解决这些问题则能够极大促进自动化构建知识图谱方面的技术进步。
本次大赛冠军团队国网信通产业集团代表分享了其在评测任务中的方案与思路。在整体过程中采用重构研报上下文、反向标注及校正、实体抽取、属性&关系抽取的四个过程。其在分享中介绍,常用实体关系抽取模型有实体抽取+关系分类的Pipeline模型、联合抽取实体关系的joint模型。在本场景下种子实体关系数量偏少,基于经验,实体抽取模型准确度较高,故团队计划采用改进标记、后接Beam Search解码的关系抽取方案。
在分享最后,冠军团队表示,本次评测提供了将学术研究与企业的应用实践有机结合的契机。通过参赛,学习和认知了文本智能化技术的丰富的应用场景,提升对企业非结构化信息智能化处理能力,进一步扩大了视野,保持与业内高水平技术的学习接触,更好更快地将优秀学术研究结果应用于企业生产运营中。
除本次大赛外,达观数据王文广在第十四届全国知识图谱与语义计算大会知识图谱工业论坛上进行了题为《工业质量体系中的知识图谱应用实践》的主题分享,详细介绍了达观渊海知识图谱平台和失效模式知识图谱的应用案例。
这是行业内首个将知识图谱技术应用与制造业质量管理体系中的应用,通过对失效知识和经验进行充分挖掘,融入失效工作对各环节提供提供支持,辅助工程师和专家更好、更快、更精准的进行失效分析,帮助制造企业在产品质量和可靠性等工作上进行预防失效和故障的发生,减少发生失效或故障后产生的损失。
2019年,达观数据以自主研发的文档智能审阅系统为基础参与“公众公司公告信息抽取”测评大赛,达观数据技术团队提出的基于Open CV和Faster R-CNN的财务报表抽取模型,以及一种两阶段的结构化信息抽取方法,在表格信息点提取和文本段落信息点提取任务上,分别达到了0.978的准确率和0.940的F1-score。最终两项子任务以0.959F1值高效斩获亚军。
作为深耕人工智能的领军企业,达观数据持续用技术赋能产业发展的同时,不断挖掘人工智能领域人才,为人工智能学术与产业发展做出贡献。