达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

“达观杯”知识图谱关系抽取赛题培训上线,解题思路干货分享

由国内领先智能文本处理企业达观数据,与中国计算机学会联合举办的2022CCF BDCI暨第六届“达观杯”工业知识图谱关系抽取赛题参赛报名正如火如荼开展中。本届赛事初赛报名截止时间为11月4日12:00,开赛至今已有来自国内外的1000余名企业和高校算法精英参与到比赛中,累计提交次数已高达2000余次。

    赛题培训    

达观数据联合创始人文辉作为本次竞赛的命题人,为助力各位打榜达人更快速上手比赛,更高效优化模型,围绕关系抽取赛题为大家进行赛题讲解与答疑,并分享其对知识图谱技术应用的相关心得。

(扫码观看培训视频)

同时为帮助选手更好地摸清解题思路,主办方达观数据已完成官方baseline的优化更新,欢迎各位选手前往比赛平台下载。

 

 baseline思路简析

该baseline使用的是GRTE模型[1],模型主要思路是将关系抽取转换为一个表格填充的任务,通过不断对表格特征,以及全局特征的学习,对表格进行分类,最终将表格的类别转换为关系类别。

在保证baseline效果的前提下,代码结构尽量保持简洁明了,基于论文github中的代码只做少量改动,并且基于此次比赛的数据,增加数据处理的代码。目前该baseline在A榜数据集上的micro-F1为0.653857,相信在此基础上通过对数据处理的优化,对模型的优化后,你一定可以得到更好的分数。代码整体过程分为:模型数据生成、模型训练、模型预测、预测结果生成。选手可进入赛事平台,自行下载baseline以供学习参考。

官方baseline下载通道

注:[1] A Novel Global Feature-Oriented Relational Triple Extraction Model based on Table Filling.

   赛题介绍