达观数据荣获文本纠错技术竞赛全国冠军！丨达观动态-达观数据-企业大数据技术服务专家

达观数据荣获文本纠错技术竞赛全国冠军！

分类：新闻动态
发表：2022-11-02

日前，第二十一届中国计算语言学大会（CCL 2022）组织的汉语学习者文本纠错任务（Chinese Learner Text Correction，CLTC）结果发布，达观数据以第一名、第二名的好成绩分获中文拼写检查与中文语法错误检测两个赛道评测冠亚军。本次评测历经一个多月的激烈角逐，期间共有140多支队伍参赛，同台竞技的队伍来自清华大学、北京大学、中国科学院等高校和科研院所以及众多NLP领域技术企业。

CCL2022大会为达观数据获奖团队颁奖

CCL 2022汉语学习者文本纠错任务（Chinese Learner Text Correction，CLTC）旨在自动检测并修改汉语学习者文本中的标点、拼写、语法、语义等错误，从而获得符合原意的正确句子。大会希望通过汇聚、开发数据集，建立基于多参考答案的评价标准，完善文本纠错数据及任务，聚焦该研究领域中的前沿问题，进一步推动文本纠错研究的发展。达观在本次测评的纠错思路上使用了多种方式的整合。例如使用了拼音与字形编码针对大多数拼写类错误；利用扩展训练集来扩充模型的学习范围；使用多轮纠错的方式解决一个句子多种错误的情况；使用困惑度、实体纠正以及Ngram后处理解决误召回问题等。保证效果的同时对于工程落地也进行了一定的照顾，最终获得了不错的效果，最终在CLTC中文拼写检查任务中达观获得第一名84.33的成绩，显著超越第二名1.4分。

达观数据相关技术负责人介绍：作为技术驱动型公司，达观数据始终在前沿技术上保持关注并将其转化为生产力和社会价值，这次比赛中涉及的文本纠错技术正是应用在公司智能文档处理IDP系统、投行文档质控、公文处理平台等多款商用产品中的核心技术之一。达观数据在技术竞赛中频获佳绩，不但印证了公司业界领先的深厚技术实力，也给予我们更大的前进动力，未来继续在文本智能处理领域做精做深。