近日,第二十一届中国计算语言学大会(CCL2022)于南昌完美落幕,其中,由达观数据组织开展的“达观杯”汽车工业故障模式关系抽取评测研讨会在CCL2022线上线下同时召开。
“达观杯”汽车工业故障模式关系抽取评测自今年CCL评测6月1日正式启动报名通道,并向参考选手发布评测数据,8月25日公布测试集数据,8月31日参赛队提交预测结果及模型代码,9月30日评测排名发布,10月28-30日在CCL 2022评测研讨会上公布排名。本次比赛吸引了60支科研小组120名选手报名参赛,最终共6支队伍突出重围斩获奖项。
评测概要
本次“达观杯”评测研讨会依托第二十一届中国计算语言学大会CCL-2022(The Twenty-first China National Conference on Computational Linguistics, CCL 2022)于2022年10月28-30日在江西省南昌市举行,由中国中文信息学会计算语言学专业委员会负责组织。CCL作为中国中文信息学会(CIPS)的旗舰会议,经过三十年的发展被广泛认为是最权威的、全国最具影响力、规模最大的NLP会议。
达观数据作为国内顶尖文本智能处理专家,为推动认知智能不断向产业界应用转型,使得其具备各个行业领域专家的知识积累和运用的能力。特以汽车工业故障模式关系抽取为题,开展本次评测。汽车工业故障知识图谱帮助汽车及零部件厂商构建质量管控知识库,整合知识经验,辅助质量工程师高效、全面地分析故障。汇聚所有专家的智慧,降低对工程师自身经验的依赖,实现降本增效,提升企业竞争力。实体抽取和关系抽取是信息抽取的基础任务,面向汽车故障领域的信息抽取对于实现智能化检修和诊断具有重大意义。识别数据中的部件单元、性能表征、故障状态等核心实体及其组合的故障模式关系至关重要。
本次测评任务聚焦于工业制造业中故障模式的抽取,包括部件故障以及性能故障这两类关系,在本次评测任务中,我们提供了4500多个故障模式关系三元组,涉及到2500多条文本,所有triple都是通过人工标注的方式生成,并且均来自于汽车故障维修案例。在评测任务中,我们将所有数据按照2:1的比例分为训练集和评测集,验证集需要选手根据情况自己切分,本次任务中的数据分布和工业界中的真实情况高度契合,存在严重的数据不平衡以及数据短缺问题,更加考验参赛队伍在底质量数据下的的关系抽取能力。
评测研讨会
达观联合创始人文辉现场报告
本次研讨会由达观数据联合创始人兼赛题出题人文辉主持及报告,文辉首先对达观知识图谱产品技术及落地场景进行简单介绍,主要包含归因分析、语义检索、知识问答以及配件管理等场景。后针对本次评测进行了回顾,赛题背景、数据的来源、数据分布以及排名结果,同时对各获奖小组所用评测方法进行了总结分享。
本次评测所采用的评测指标为关系的F1-score,数据集方面充分贴合真实的工业界场景,以便观察各选手对于真实场景问题的解决能力。最后,文辉指出,由于数据不平衡问题严重,模型学习难度明显提高,但本次评测最佳性能依然能达到66.44%,可谓成绩显著。
获奖选手报告
上海工程技术大学报告
上海工程技术大学学生代表作题为“基于小样本数据增强策略的汽车故障领域知识抽取方法”的报告。首先针对评测任务标注数据进行了问题分析,提炼了三个本次关系抽取评测任务的学术问题,后续针对该三个问题引出了数据增强策略解决思路。
第一步基于该团队在科技部重大项目“工业领域知识自动构建与推理决策技术与应用”所积累的成果,设计了模板匹配法扩充数据解决了原数据的长尾问题;第二步在PURE实体关系抽取模型上进行改进,融入了实体的词性特征和边界特征;第三步通过对错误的预测结果进行分类分析,设计了交叉训练的方法,修复了原始标注数据的质量。最后分析了部分超参数对模型效果的影响以及交叉预测迭代次数对结果的影响。
颁奖典礼
经过审核评比,工程大工业KE队一举拿下本次评测F1最佳得分:0.664454,其他队伍紧随其后。达观联合创始人文辉向大家宣读了获奖名单,并与大连理工大学计算机科学与技术学院杨亮老师共同为抵达会场的上海工程技术大学和达慧智能科技有限公司这两支参赛队现场颁奖。本次评测获奖队伍将获得中国中文信息学会官方荣誉证书以及达观数据提供的评测奖金。
上海工程技术大学&复旦&北大&韩国全北国立大学&华师大现场领奖
达慧智能现场领奖
大会风采
今年,达观很荣幸以金牌赞助商的身份参与CCL大会,并在现场与业界大咖和高校学子展开热烈的学术讨论,共话智能文本处理技术未来新篇章。
金牌赞助商达观现场展览
作为深耕文本智能处理的领军企业,达观数据持续用技术赋能产业发展的同时,将继续不断挖掘认知智能领域人才,为人工智能学术与产业发展做出贡献。