由国内领先智能文本处理企业达观数据,与中国计算机学会联合举办的2022CCF BDCI暨第六届“达观杯”工业知识图谱关系抽取赛题正在火热报名阶段。截至目前,已有来自国内外的近400名企业和高校算法精英参与到比赛中。
作为本次赛题的出题方,为助力各位打榜达人更快速上手比赛,更高效优化模型,冲击决赛top榜,达观数据算法技术专家牛鹏超为选手提供了官方baseline以供参考。本届大赛的总奖金池已升级到了超10万元,除此外,还有免费算力、周榜激励、过往选手激励、面试直通车、邀请有礼、专业书籍赠送等多样化的赛事激励等你来赢!
还没有报名的同学
识别下方二维码或点击阅读原文
进行报名
▼
baseline思路
该baseline使用的是GRTE模型[1],模型主要思路是将关系抽取转换为一个表格填充的任务,通过不断对表格特征,以及全局特征的学习,对表格进行分类,最终将表格的类别转换为关系类别。 在保证baseline效果的前提下,代码结构尽量保持简洁明了,基于论文github中的代码只做少量优化改动,并且基于此次比赛的数据,增加数据处理的代码。目前该baseline在A榜数据集上的micro-F1为0.643514,相信在此基础上你一定可以修改得到更好的分数。 代码整体过程分为:模型数据生成、模型训练、模型预测、预测结果生成。选手可进入赛事平台,自行下载baseline以供学习参考。
官方baseline下载通道
注:[1] A Novel Global Feature-Oriented Relational Triple Extraction Model based on Table Filling.