达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

CCF大专委为达观杯知识图谱算法竞赛获奖选手颁奖,第六届达观杯圆满落幕!

近日,第十届CCF大数据与计算智能大赛(简称2022 CCF BDCI)在苏州市迎来终极对决,由中国计算机学会主办、苏州市吴江区人民政府支持,累计吸引数百人共同见证了本届大赛的圆满落幕。第六届“达观杯”作为本届BDCI赛题合作方,也在本次颁奖典礼中圆满落幕。值此CCF大数据专家委员会成立十周年之际,CCF 大数据专家委员会十周年纪念活动也于此同期举办,CCF理事长梅宏院士、CCF大专委秘书长程学旗教授、CCF自然语言处理专委会秘书长万小军教授等数十位国内顶尖专家亲临现场,为大赛获奖选手颁奖。

本届“达观杯”算法竞赛以《工业知识图谱关系抽取》为赛题,共吸引来自280余所不同高校的算法精英1589人,组成1448支队伍参赛,期间选手共完成了8,304次提交。经过几个月的激烈角逐,也公布了最终获奖选手。其中,实力卓群的华夏银行下科技公司龙盈智达团队从几千名参赛选手中脱颖而出荣获冠军,并在第十届CCF大数据与计算智能大赛(2022CCF BDCI)上进行方案分享。

CCF 自然语言处理专业委员会秘书长万小军教授为选手答辩做评审规则介绍

获奖团队一览

 

赛题情况概要

 

本届“达观杯”提供了接近一万条的汽车故障案例标注数据,这些数据经过人工标注、校对,已经形成了高质量的数据集。数据全部来自于汽车故障维修案例,包括4个关系类别,4个类别的数据量分布不平衡。本次比赛采用macroF1作为评价方案。从label分布和数据长度分布可以看出这是一个典型的样本不均衡的短文本分类问题。

达观联创文辉作为出题人介绍赛题情况

从获奖选手的方案中,发现选手使用最多的模型是GPLinker,其次是GRTE,方案基本是多模型融合,同时选用了更大的预训练模型,并且在融合模型中加入了用于提升模型效果的优化方法。预训练模型很大程度上缓解了样本标注数量过少的问题。优化策略也比较集中,FGM解决鲁棒性问题、通过数据增强解决样本不均衡问题。也有部分同学通过数据伪标的方式来解决数据标注中存在的漏标、错标问题,对于本次的短文本分类问题效果提升不错。综上所述,选手从几个方面针对数据集的样本不均衡问题以及标注数据不足的问题,为工程实践的关系抽取问题提供了很好的思路。

冠军选手报告

冠军选手华夏银行下科技公司龙盈智达团队深入研究了关系联合抽取模型grte和GPLinker,通过对滑动平均、分折策略的改进、外部数据构建伪标签等方式对两种模型进行了优化,创造性地解决了grte前向解码过程普遍存在的关系冗余问题,提出了模型融合过程中使用负样本构建差异性模型的方法,最终通过投票方式获得A、B榜均位列第一的好成绩。

 

颁奖典礼 

达观联合创始人文辉与CCF专家代表共同为抵达会场的龙盈智达科技与中国电信这两支参赛队代表现场颁奖。本次赛题获奖队伍将获得达观数据提供的评测奖金以及由CCF颁发的权威证书 & 大赛荣誉奖杯。

自2017年以来,由达观数据主办的“达观杯”系列算法大赛至今已经成功举办七场,在全国范围内引起极大关注,目前已成为国内语义理解领域规模最大的算法竞赛之一。达观数据将在未来持续用技术赋能产业发展的同时,不断挖掘人工智能领域优秀人才,为学术和产业发展做出贡献;期待下一届“达观杯”再次与大家不见不散!