达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

达观数据荣获“中国法研杯”司法人工智能挑战赛单项季军

近日,由中国电科团委、中国司法大数据研究院和中国中文信息学会共同主办的首届“中国法研杯”司法人工智能挑战赛颁奖典礼暨学术交流研讨会在北京召开。经过近半年的比赛角逐,达观数据从1000多名参赛选手中脱颖而出,荣获刑期预测单项季军的好成绩。达观数据副总裁王文广受邀出席会议,并与在场嘉宾及同仁分享技术心得和经验。

1

关于中国法研杯
2018中国“法研杯”(CAIL2018)是由最高人民法院信息中心、共青团中央青年发展部指导,中国司法大数据研究院、中国中文信息学会、中电科系统团委联合清华大学、北京大学、中国科学院软件研究所共同举办的司法智能挑战赛。

 

本次大赛共吸引了全球120家高校,11家司法单位和138家企业参加,其中既有来自北大、清华等国内外顶尖学术机构的科研人员,也有来自微软、谷歌的优秀工程师。不同背景的选手在一起碰撞交流,共同促进法律智能相关技术的发展。

 

本次比赛以刑事案件量刑为背景,设置了罪名预测、法律条款推荐和刑期预测三个任务。通过封闭评测的方式,选手们运用人工智能领域的多种技术组建参赛模型,对“中国裁判文书网”公开的刑事法律文书数据进行算法模拟,并对待测裁判文书可能涉及的罪名、适用法条、刑期长短进行预测,选手的预测结果将与真实的裁判结果进行比较,二者越接近,则分数越高。达观数据在刑期预测任务中夺得季军。

 

2

达观数据荣获任务三(刑期预测)第三名

本次法研杯比赛的成果也得到了最高人民法院的高度认可。中国中文信息学会秘书长孙乐和最高人民法院信息中心副主任孙福辉莅临颁奖现场并先后发言,表达了对比赛的高度肯定,阐述了人工智能技术的发展方向。

3

最高人民法院信息中心孙福辉副主任为获奖选手颁奖

 

文本智能处理,赋能智慧司法建设

 

达观数据副总裁王文广现场和大家分享了在本次比赛中采用的技术路线和心得体会。

 

从总体架构上,达观数据的整个系统包括了专家系统,自然语言处理和深度学习三个大的方面。结合者三个大的方面也是达观数据在多个其他系统中所使用的技术组合。

4

达观数据副总裁王文广和现场嘉宾进行技术分享交流

 

王文广介绍,深度学习是对结果产生影响最大的一块。整个过程实验了多种深度网络结构,在对最终结果产生重要影响的是HAN(层次注意力模型)和DPCNN(金字塔CNN)。对这者两个模型进行深度的挖掘,结合不同的embedding,实验了多种参数。最终也使用了这两种模型的结合,即用一个全连接网络对着两个模型进行ensemble,形成了一个超级复杂的网络结构。

 

达观数据:文本智能处理专家

作为中国知名的文本智能处理企业,达观数据利用先进的文字语义自动分析技术,为企业提供文本自动抽取、审核、纠错、搜索、推荐、写作等智能软件系统。目前已经成功为华为,海尔,长虹,iCourt、威科先行、京东,招商银行,华泰证券等众多知名金融、法律、制造企业提供了技术服务。

5

本次比赛与众多来自司法机构和高校的选手们同台竞技,取得季军的容易实属不易。除了达观专业的技术积累,也离不开参赛人员的技术热情与全情投入。

达观数据副总裁王文广回忆:“成绩的取得离不开团队成员的努力和投入,比赛过程中每周重置次数是中午2点左右,有一次是当天12点多提交了模型,提交后大家去吃饭,饭中发现提交的模型测试失败,当天下着大雨,直接打电话让团队另一成员打着伞拿着两个笔记本跑到饭馆当场debug,然后通过4G流量提交。整个过程在饭馆老板看了简直是个疯子,我们却也乐在其中。

本次在中国法研杯司法人工智能挑战赛中取得的成绩是达观数据在司法行业中的又一次进步。随着深度学习和自然语言处理为代表的人工智能技术取得的不断突破,司法行业文本处理更加智能化、自动化也将成为智慧司法的发展方向。