日前,第二十一届中国计算语言学大会(CCL 2022)组织的汉语学习者文本纠错任务(Chinese Learner Text Correction,CLTC)结果发布,达观数据以第一名、第二名的好成绩分获中文拼写检查与中文语法错误检测两个赛道评测冠亚军。本次评测历经一个多月的激烈角逐,期间共有140多支队伍参赛,同台竞技的队伍来自清华大学、北京大学、中国科学院等高校和科研院所以及众多NLP领域技术企业。
CCL2022大会为达观数据获奖团队颁奖
CCL 2022汉语学习者文本纠错任务(Chinese Learner Text Correction,CLTC)旨在自动检测并修改汉语学习者文本中的标点、拼写、语法、语义等错误,从而获得符合原意的正确句子。大会希望通过汇聚、开发数据集,建立基于多参考答案的评价标准,完善文本纠错数据及任务,聚焦该研究领域中的前沿问题,进一步推动文本纠错研究的发展。达观在本次测评的纠错思路上使用了多种方式的整合。例如使用了拼音与字形编码针对大多数拼写类错误;利用扩展训练集来扩充模型的学习范围;使用多轮纠错的方式解决一个句子多种错误的情况;使用困惑度、实体纠正以及Ngram后处理解决误召回问题等。保证效果的同时对于工程落地也进行了一定的照顾,最终获得了不错的效果,最终在CLTC中文拼写检查任务中达观获得第一名84.33的成绩,显著超越第二名1.4分。
达观数据相关技术负责人介绍:作为技术驱动型公司,达观数据始终在前沿技术上保持关注并将其转化为生产力和社会价值,这次比赛中涉及的文本纠错技术正是应用在公司智能文档处理IDP系统、投行文档质控、公文处理平台等多款商用产品中的核心技术之一。达观数据在技术竞赛中频获佳绩,不但印证了公司业界领先的深厚技术实力,也给予我们更大的前进动力,未来继续在文本智能处理领域做精做深。
达观数据致力于文本智能处理的商业应用,运用全栈自研的前沿NLP技术和算法模型,结合行业专家经验知识图谱研发多款智能文本办公产品,现已广泛落地于金融、制造、地产、能源、通信、传媒、医药、政务等领域,累积上千家知名政企客户。洞识海量纷繁信息,让文本智能赋能百业。