WAIC精华回放 | 上海科大讯飞邵文明:认知技术突破及科大讯飞的行业应用实践
在2020年世界人工智能大会云端峰会中,达观数据与浦东青联联合举办了“智能时代,语你同行”行业论坛,围绕语言智能,与多位行业专家与学者展开了一场精彩线上交流盛宴。
上海科大讯飞副总经理邵文明在论坛上进行了《认知技术突破及科大讯飞的行业应用实践》的主题分享,以下为演讲内容精华整理,观看大会回放可直接下拉最下方二维码进行精彩回顾。
- 认知技术当前进展
- 语义理解、机器翻译、对话系统以及知识图谱四个领域目前的应用。
认知技术当前进展
- 第一阶段为运算智能,基于超千台服务器的异构神经网络超算平台,其存储和计算能力非常强大。几年前阿尔法狗的获胜开启了人工智能新一浪潮,也代表着运算智能的新高度。
- 第二阶段为感知智能,感知智能像人一样有各种感知,像人一样听、说、看。这些方面机器从速度和准确率方面都达到了非常高的水准,甚至部分领域已经超过人类。
- 第三阶段是认知智能,让机器会思考、能理解,像人一样具备大脑功能,不仅能够听到人说的,还能知道说什么,并可以准确反馈。认知技术是人工智能在未来取得更大突破和更广泛应用的关键瓶颈。
认知智能包括的领域很广,当前认知技术面临一些问题,也是目前在整个人工智能发展中存在的困境。
- 封闭环境VS开放环境:目前每一个任务的性能是在封闭测试的环境下得到的,如果在开放环境下进行,性能将会大大下降。所以聚焦特定领域、特定子任务,确定技术路线,才会达到实用性能。封闭环境下的人工智能称之为弱人工智能,如果在开放环境要想得到很好的应用,需要把弱人工智能上升到强人工智能,即通用型全脑型的人工智能。
- 模式识别VS真正理解:目前智能的本质是模式识别,大量的常识知识、世界知识还没能很好与神经网络结合起来。未来我们希望通过大量的常识、各类的知识与神经网络相结合,让机器把专家知识真正变为自己的知识,同时将推理加入到学习体系中。这样机器才能变成真正具有自我推理能力。
- 大数据的依赖性:目前成功的方法大多严重依赖标记语料集合,需要在强监督大样本训练之下,机器才能逐步提升。未来我们需要突破让智能不再依赖数据,持续在无监督、小样本算法突破,同时通过应用获得真实的数据、用户的反馈,然后改进系统,并把可解释性融入到神经网络学习体系。
- 当前人工智能对于噪音敏感度不强:当机器碰到干扰、或使用场景不匹配时,准确率或反应会立刻大幅下降。未来我们需要把自然语言理解,语义模型对于噪音敏感度加大。
在未来的人工智能时代,人工智能需要三方面核心支撑能力。首先通过小样本学习、无监督学习、迁移学习、常识的了解,让人机交互更加普遍和准确,由图象、语言、语音作为入口,结合推理学习将带来认知智能的革命。
人工智能认知阶段的当前实际应用具体在自然语言理解(NLP),它也是新一代计算机必须研究的课题。 它的主要目的是克服人机对话中的各种限制, 使用户能用自己的语言与计算机对话。
自然语言理解包含基础技术、高级技术和应用技术。基础技术可分为词法与句法分析,语义分析和语篇分析。高级技术包含知识图谱、语言认知模型、语言知识表示与深度学习。应用技术包含常见的机器翻译、信息抽取、自动问答、文字识别、自动摘要等多个领域。
语义学习的机制是根据上下文来找相似的语义。比如,我们说话的时听到上下文会知道它的语境,会猜测它的意思。在词语的表达上,过去用一个单向的向量,但这有一个很大的问题,所有的词语都是不同的向量,很难分清词语之间的关系。当前在神经网络深度学习的时代,用嵌入式的举证向量表示词语,这样可以更好地了解到一个词语包含的内涵,近义词在哪一个语境圈。
过去静态词表达无法解释一词多义的现象。“我喜欢土豆,不喜欢西红柿。”当听到上下文我知道,这个土豆是指蔬菜;另一句话,“我喜欢土豆,不喜欢优酷。”听到下半句的时候知道这个土豆是视频网站土豆,而不是蔬菜。这是因为静态句子中往往难以充分表达出含义,而动态词表达每一个向量与上下文环境相关。
自然语言的复杂性往往被低估,人们平时说话时,会不自觉将进行背景和语义的联想。例如:
人和人交互的时候一方说到肯德基,另一方就知道肯德基里有洗手间,这是人的常识。但是当跟机器人说前面有个肯德基,没有常识的机器,不会知道肯德基和洗手间之间的关系。常识场景下对各类问题的智能理解、分析及推理是人类智能的重要组成部分,这背后需要大量常识知识作为基础,以此我们才能理解和交互对方真正的意图。
科大讯飞1999年成立,科大讯飞的认知之路经历了几个阶段。从在教育领域的尝试到前些年机器翻译大规模盛行和应用,到医疗、金融、司法等专业行业都有了应用。
人工智能领域典型应用
语义理解
机器如何理解简单句子“帮我查一下明天从合肥到北京的航班”?
中文每个句子里字和字之间没有空格,词与词之间没有明显界限。所以机器首先切分出词语,同时从词语之间找到表达的关健词。这个句字关健词,时间——明天;地点——合肥到北京,查的内容——航班。这是机器在背后默默运算的功能。
对于语义的抽取,如何抽取其中的关键内容?在数学上通过变量的形式来表达。语义理解除了广度外还有深度,同一个句子有多种方法表达,机器如何表达多种含义的知识?这是我们对机器很重要的要求。
机器翻译
机器翻译是利用计算机把一种自然语言翻译成另一种自然语言的过程。机器翻译首先通过文字序列进行预处理,分词也是预处理中的一部分。分词后进行核心的翻译,翻译后进行后处理,最后输出文字的序列。
机器的翻译并不仅只把词语一对一的翻译出来,那样会显得很生硬,甚至有语义错误。我们希望它能像人一样做到信达雅,准确,表达精准,还能体现出其中很地道的表达和典故。
机器翻译的过程原理,有一个小案例,当它输入一段中文后,要切分成词语,每个词有对应的英文进行替换翻译,翻译后根据英语不同的记法进行调整,比如进行倒装或者反问等。
深度学习在机器翻译过程中起了非常决定性作用,2010年后,基于深度学习我们将深度神经网络用于端到端翻译,让机器人翻译质量得到了大幅度的提高。
机器翻译目前在各行各业也有了广泛的应用,例如用机器翻译获取外文信息;通过机器翻译在聊天软件上跟国外好友进行聊天;以机器翻译进行日常交流和旅游,我们的翻译机已经成为成熟的小产品,目前翻译机可翻译57种不同语言。
对话系统
多人对话系统的场景,例如,手机上的虚拟机器人与人进行对话。对话系统处理时也有这样几个过程,先将表达的内容进行分类和抽取,提取后来预测想表达什么内容,该怎么回应。最后进行这个领域的问答知识库匹配,同时表达出来。
对话生成技术也是用很多词向量,句子对话库进行匹配和预测。这是一个案例的流程,基于无监督的语义模型进行问题扩充,基于上下问得到准确的答案生成。
对话系统在当前的时代也有很多应用,例如家庭智能音箱,在几米之外呼唤一声也能听到;对于带口音和常见方言的句子机器也能识别;不用话语全部说完才能说下一句,可以中途交错打断,或者跳转其他语境中。
语义命令可以用于家庭音箱、汽车导航来提高安全性,也可以用于老百姓的办事大厅,不用很复杂的找到对应的人。例如在汽车上通过语音助理,帮助实现找加油站、停车等功能;在金融和运营商行业,已经很好地运用智能语音的技术帮我们更快速的实现打电话、接电话、提高效率。
知识图谱及应用
最后介绍一下知识图谱及应用。什么是图谱?从一个因材施教的案例来理解。
一个班级有三四十名同学一起上课,因为老师的精力有限,无法为每一个同学量身打造应该做什么内容进行巩固学习。每个人都是同样的卷子,这样传统的方式是千人一面,没有个性化的精准学习。
通过知识图谱的方式,我们结合了智能批改,对每个同学进行精准分析,得出个性评价,进行精准的教学。
这是某年级某一门学科,把所有的知识做成这样的图谱,同时用各种颜色的亮点表示,绿色表示这位同学在这个学科中这个知识点掌握非常好,黄色表示掌握一般,红色表示基础比较薄弱。这样的知识图谱就能充分为每一个同学的知识学习情况进行画像,从而为他来打造一个量身定制的教学环境。
老师基于知识图谱布置作业,可以根据每一个同学的薄弱点,专门为他出题,找到他的薄弱点进行强化练习,对于他已经掌握好的可以温故而知新。
对于试卷批改,可通过机器批改的辅助方式快速改作业,更好地帮助老师修改作业,让学生成功进行知识沉淀,让老师从简单重复的工作中解放出来。
对于每个同学来说,可以建立个性化错题本,有了机器辅助可以帮助每一个同学自动生成错题本,从而推荐每个人不熟悉的或者错误较多的题目反复练习。
除了以上几个应用领域外,在智能服务领域、会议领域、办公领域等将有人工智能应用的前景和空间。
- 核心技术上,无监督小样本学习取得突破,人机耦合效能提升10倍,领域知识推理达到实用;
- 应用场景上,认知智能将触及到50%以上的行业,形成规模化的应用场景;
- 行业趋势上,先行企业将陆续建成覆盖行业知识和业务场景的“认知中台”,支撑和打造“行业超脑”。