4月18日,达观数据科学家团队再添专家,国内知名自然语言处理领军专家、复旦大学计算机教授黄萱菁博士正式受聘为达观数据高级顾问,达观数据在人工智能领域的研发实力又上新台阶,未来在深度学习、自然语言处理领域,达观将继续推动文本智能处理在各行各业的应用和普及。
在自然语言处理领域,黄萱菁教授赫赫有名,作为国内早期从事人工智能、自然语言处理和信息检索的学者,黄萱菁教授已经在SIGIR, IEEE TKDE, ACL, ICML, IJCAI, AAAI, SCIS, CIKM, ISWC, EMNLP,WSDM和COLING等多个高水平国际学术期刊和会议上发表了近百篇论文,负责的多个科研项目受到国家自然科学基金、科技部、教育部、上海市科委的支持。
黄萱菁教授曾担任过2004年自然语言处理青年学者研讨会(YSSNLP)总召集人,2009年亚洲语义网学术会议(ASWC)组织委员会主席,2010年国际计算语言学学术会议(COLING)tutorial主席,2014年CIKM会议竞赛主席,2015年WSDM会议组织者,2016年全国计算语言学会议程序委员会副主席,2017年国际自然语言处理与中文计算程序委员会主席等。
本次受聘仪式上,黄萱菁教授做了“神经网络与中文分词“的专题分享。
学术前沿:神经网络与中文分词
在NLP(自然语言处理)领域,中文分词是很多任务最需要的语言信息处理技术,也是中文结构和语义分析的基础。黄萱菁教授详细介绍了中文分词的几种方法:
- 基于序列标注的中文分词
- 基于神经网络的中文分词
- 基于门递归神经网络的中文分词
- 基于长短期记忆网络的中文分词
- 基于对抗网络的多标准分词
黄萱菁教授强调,在分词中结合词典特征来处理罕见词,罕见词常有两个特征,它们是低频词汇,或者特定领域词汇。在词典中可能即包含了常用词汇,也包含了低频词汇和特定领域词汇。
业界前沿:深度学习与文本智能处理
在人工智能领域,达观数据一致专注于NLP的研发与应用,达观数据联合创始人高翔随后结合达观在实际服务的业务场景中分享了深度学习在NLP中的具体应用。
达观数据研发的达观智能文档处理平台,受到了金融和保险领域的众多客户青睐。其实现的风险智能审核、文档智能抽取、错误智能纠错和文档智能对比,利用NLP技术解决了行业中繁杂的文字处理工作。
高翔详细介绍了达观数据在智能文档审阅系统中的抽取核心算法:
高翔和大家介绍,和传统的机器学习相比,深度学习(CNN、RNN)实现了端到端,无须大量特征工程,其次框架的通用性好,可以满足多领域的需求,并且可以使用非监督语料训练字词向量提升效果。在其经验看来:
在业务场景下,尽量收集并理解数据,分析问题的本质,选择合适的算法模型。在初始阶段,可以使用传统的机器学习模型快速尝试,疑难问题使用端到端的方式也许会有惊喜。
活动结束后,台下同学分别就分词的粒度划分、深度学习调参和数据获取以及处理的方式与黄萱菁教授和高翔展开了深入的讨论交流。
继复旦大学知识图谱专家肖仰华教授受聘达观数据后,本次黄萱菁教授的受聘,再次提升了达观数据科研团队的技术研发实力。
特此鸣谢浦软孵化器对本次活动的大力支持!