BOUT
1月13日下午,在沪江北京研发中心、沪江智能学习实验室和CCtalk在京举办的“智能引擎,驱动教育”技术沙龙中,达观数据创始人&CEO陈运文作为受邀嘉宾,在大会上进行了《文本智能处理在教育行业的应用》的演讲,与来自云知声等企业嘉宾共话智能驱动下的教育未来发展,上百位在线教育行业技术大咖共议智能技术在教育行业的应用。
我们日常工作中不管是做教育还是接受完教育后踏上工作岗位,都会面临各种各样的文档资料和文本数据。
大家每天都在看的各种媒体内容,公司里大量的公文和办公资料,如果涉及到和客户打交道的会有客户评论意见,中文、英文等各种不同跨语言的资料。
一些垂直应用行业,比如法律行业从业者,会涉及法律文书,如果是人事会涉及到人事简历;证券、金融行业会涉及到很多财报和公告。所有这些文档资料,大部分今天还要靠人工来阅读理解分析。
如果计算机系统能够像人一样阅读文字内容,理解文字含义,并把很多重复、枯燥的工作自动化,很多人力就可以解放出来做更有意义的事情,这就是文本智能处理的目标。
文本挖掘已有很多成功应用,比如搜索引擎就是一个典型的自然语言处理(或叫文本挖掘)非常成功应用案例,并且其商业化也非常成熟。个性化推荐这几年风起云涌地发展,但目前文本挖掘技术本身还有很多难题需要攻克,中文方面其实还有很多困难。
Datagrand
达观数据
字词关系其实是语言的基本构成元素,但让计算机来阅读文字时就发现,要理清楚字词之间的关联关系很难。
计算机处理这些词会遇到很多严峻的问题。就中文来讲,中华人民共和国是大粒度的词,讲的是一个国家的概念,很多时候可以用单字“中”表达这个意思,比如中美关系、中俄建交,这个里面的单字中表达的就是中华人民共和国的意思。这个时候,粒度的大小表达的意思相同。
但另外一些情况,单字“中”有另外的含义,河南话的“中”是好的意思,什么时候这个词应该用大粒度表示,什么时候应该用小粒度表示是自然语言技术的处理难题。
还有局部转移,比如巧克力囊肿是很常见的疾病的名字,和巧克力没有关系,如果找这个病把巧克力找出来就不行。
以及我们常说的同义词和近义词,简单的方法是配一个同义词辞典,但是很多场景下同样意思的词有微妙的差异,比如父亲和爹,应用场景不同,如果简单划等号很容易出问题。比如跑步鞋和球鞋意思接近,但当我一定要找跑步鞋时,你给我球鞋是不对的。
还有很多中文中比较混乱的情况,例如:“意思”、“方便等等”都是中文里非常混乱的词汇,它在不同应用场景下意思很不一样。
处理大量文本尤其长文本的时候最重要的是指代归属问题,比如合同里会说该条款表示的是××,这个指代关系需要到上文里找,跨段落理解也非常复杂,需要做大量的算法研究。
Datagrand
达观数据
语义的歧义层出不穷,比如:“咬死猎人的狗”, “五个公司的工程师”,这是一个典型的数量词和修饰对象存在歧义问题,我们需要了解到底是五个工程师还是五个公司。如果不给你上下文,两种语义理解都是对的。
还有一种歧义切分的问题,“乒乓球拍卖了”,一种断法叫做乒乓球/拍卖了,还有一个是乒乓球拍/卖了,两种断字方法都有一定的合理性,一定要结合上下文理解。
最后一个例子是指代歧义的例子,比如:“小张欺负了小王,老师喊了他家长”,想让计算机理解语义内容面临的歧义问题非常困难,我们也经常发现一个系统做文字的理解时经常发现答非所问,其实就是歧义在其中有很多障碍。
Datagrand
达观数据
同一个意思我们可以用不同的方式表达,这给计算机来做语义理解带来了很大障碍。常见的做法很多时候把句字的主语、谓语、宾语等核心语法元素识别出来,找到正常应该对应的位置才能更好地理解它的意思。
比如“你上班了吗?”这是中文当中常见的寒喧语言,这句话里的主谓宾位置可以任意调换,但意思不变。山东人特别爱上倒装句,喜欢把主语放在最后说。这句话便成了“上班了你?”
做语法理解的时候便要把“你”识别出来,让它再回到句子最前面才是正常的表达。做好这些复杂的语义结构分析才能把这些解决好。
Datagrand
达观数据
我们做智能处理的时候常用的技术是怎样的?给大家分享一些计算机学界处理文本多年的进化过程。
1956年达特茅斯会议以后,人工智能被正式提出来,当年科学家提出了两个AI目标,第一,在国际象棋能够战胜人类,第二机器翻译上能够超越人类,这两个目标达到了,1956年的科学家便认为AI就已经实现了。
1956年达特茅斯会议参与者首先提出了AI概念
今天来看,国际象棋上早就已经超过人类了,甚至围棋也已经超过人类,但是机器翻译领域,和翻译人士相比还有不小差距。所以语言的分析挖掘确实是一件很难的事情。
Hinton教授提出了深度学习的概念,最早的时候,五六十年代能想到的是词典加符号规则的方法,七八十年代有很多技术专家研究不同语言的语言规则和语法模型,在九十年代以后,统计学习的方法衍生出来,直到今天有大量技术是基于统计学习模型来实现。2010年以后,深度学习和知识图谱这些新的技术涌现出来了。
总体来说在学术界做文本智能处理技术分成两大路线,一个是结构主义,二是功能主义,从两个角度进行文本智能处理就是从词汇、篇章做各种各样的分析挖掘。
Datagrand
达观数据
做文本的智能处理,如果把它从基础功能抽象出来看,大概分成四类。
第一类:抽取
第一类是抽取。如果把文字处理看作一个信号处理问题,输入一串信号,它由一堆字词构成,如ABCDEF,我们现在要做的事情就是从里面抽取出关键信息。比如常见的标签、提关键核心内容等都是抽取的一部分。一个文本中的关键信息在不同应用场景下是不同的,但抽取这个过程可以把它抽象出来变成一个通用的算法模型。
第二类:划分
第二叫做划分。同样输入一串信号,是现在有一个跟不同应用场景相关的预置好的若干类别,在新闻行业中有自己的分类体系,任何一篇文章过来可以自动分到不同的类别里。
如果做情感,人类情感有几十种甚至上百种,先定义好人类情感类型,任何一个文本进来都可以看到它属于哪一种情感类型,这些都是分类应用。
第三类:转换
第三类叫做转换,输入一串XXX信号,转换成另外一串信号。
如上图就是转换的例子,输的是一串信号,通过编码、解码、转化可以映射成另外一种语言或者表达方法。比如机器翻译,还有摘要,缩短了文本内容,但意思不变。
第四类:合成
合成是给出几个关键信息,把它合成一个文章,比如机器写作、机器润色等。
以上这些就是文本挖掘的基础应用类型,抽取、划分、转换、合成。
Datagrand
达观数据
文本智能处理在教育行业的具体应用场景有哪些?
场景一:自动阅卷
自动阅卷是一个分类过程。比如老师阅卷完了之后打的ABCD等级就是一个类别,机器现在做的就是任何一段文本需要映射到一个对应类别里。
文本分类原理可这样理解:之前有大量老师给同学们的作业和做题的结果打上各种各样的分数,这个分数就是机器的训练样本,我们基于训练样本反过来构造一个语言模型,去了解文章中到底有哪些特征可以映射到对应的分类里去,建立相应分类模型。建立好以后,便能够帮助我们来完成文章的自动阅卷的过程。
场景二:评论反馈观点提取
教育行业中的用户评论、评论的观点提取也是非常重要的一个场景。很多企业里称它为VOC系统,教育行业需要从学员的反馈信息中做各种各样的核心内容抽取,以及评论观点的归一,还有大量统计分析。
场景三:作文纠错
在我们日常工作当中只要涉及到文本的写作,不管是不是作文,其实都需要纠错。比如一些上市公司发布的公告中经常存在错误,大家撰写的合同中也可存在错误。
纠错方面计算机今天已经可以帮大家做很多工作,最简单的纠错就是在word里拼很多单词,如果错了它就给你标注一个红线。但更多应用场景中需要融入这个行业里的专家逻辑、行业规则、经验等,提供更高级别的纠错,这也是达观数据给客户提供的服务之一。
场景四:搜索引擎
搜索是非常典型的基于文字衍生出来的应用,当文档资料数量多的时候,搜索就变成了刚需。对于一个企业来说,不同部门、不同业务场景都可以积累下来很多文档资料,这些文档资料有的存在邮件里,有的存在ERP等系统里,你需要找到核心内容的时候就需要搜索系统。
简单用关键词匹配容易丢失很多结果,所以我们要做大量的语义方面的理解,需要大量的文本挖掘功能。传统的搜索比如数据库搜索,需要搜索的文字数量越多,等的时间就越久。今天用倒排搜索引擎,文本数量增加的时候等待时间通常不变,几乎感知不到等待过程。
举个例子,比如搜“英语四级课程”,同样一个意思有很多种表达方法,我们需要把它都找出来,就要做很多工作了,这就是语义延展。
场景五:建立学员的个人画像
教育行业是一个充分讲究个性化的行业,做个性化的一个基础技术就是做语义理解。
个人画像首先要对学员所学习的课程做一个语义理解分析,打上个性化标签,再根据这些学员和内容之间的交互行为给学员生成各种各样的用户画像,基于这个可产生很多个性化推荐功能,比如可以进行各种的内容的推荐,既可以面向大学毕业生,又可以面向金融从业者,又可以面向小学生甚至科研从业者。
场景六:知识图谱
知识图谱是一个行业里专家经验的沉淀,任何领域知识都像一个网状结构,每个知识点在这个知识网络里和其他知识点构成了一个关联关系。
在做教育时如果能建立一个知识图谱,就可以看到现在掌握的知识点在整个领域的哪个位置,接下来还需要往哪个方向发展。这些是对每位教育行业参与者很有价值的应用。