达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

智能审阅、自动写作的现状与未来
喜报!达观数据中标中信银行信用卡中心 AI 项目

 

近日,在全国两会中山东台引入人工智能技术进行报导引起了广泛关注。AI与新闻及写作的融合早在10年前国外媒体便开始了商业化的尝试,随着国内人工智能行业的飞速发展,智能写作、机器阅读、智能审阅逐渐走入了越来越多企业和办公人员的视野。

 

阅读、写作做为人与人、企业与企业之间信息传递的主要方式,目前的发展现状如何?未来又会产生哪些机遇?为此,达观数据副总裁贾学锋与张江新媒体“你好张江”聊了聊目前国内 AI+阅读与写作的发展近况和机遇挑战。

人物介绍

 

贾学锋:目前担任达观数据副总裁负责达观数据AI项目交付实施、客户需求理解及咨询方案设计以及基于自然语言理解、知识图谱、搜索和推荐等技术驱动的人工智能产品设计。在加入达观前SAP中国研究院、阿里巴巴和万达网络集团从事与人工智能相关的算法研究、产品设计以及商业化相关工作。

 

01
您怎么看机器人代写事件?

 

贾学锋:代写机器人是人工智能一个非常重要的发展方向,在很多场景中是可以代替人的工作。但写作是一个非常复杂的创造过程,以目前技术的发展情况来看,短时间内是机器是没办法达到这种要求的。因此,短时间内代写机器人不能够完全代替人的工作。我们这里举一个简单的例子,在我们达观官网上,有智能作诗、智能写对联等功能,这些功能是我们的机器在阅读了大量的古诗、对联的基础上,基于我们的NLP分析结果,通过“平仄”作诗、写对联的规则自动生成。但是我们同样给机器阅读大量的小说,机器也是没办法写出《流浪地球》这样的小说。

 

也许你会说,现在网络上出现了很多关于代写机器人的新闻,比如代写新闻稿、代写学生作业等,这样的代写能力在我们业内看来是一个人工智能方向非常浅的应用。以地震新闻为例,如果我们要机器写一篇地震新闻稿,我们首先需要定义新闻稿的模板,就像下面这样:

20xx年xx月xx日(新闻发布时间),据xxxx(发布机构)消息,xxxx(地震发生地点)xx日(地震发生时间)发生x.x级(地震震级)地震。目前尚无人员伤亡和财产损失报告/目前地震已经造成xx伤亡,直接经济损失xxxx万元。消息说,地震发生在北京时间xx日xx时xx分,震中位于南纬x.xx度、东经x.xx度,震源深度x.xx公里。

 

在类似这样的新闻稿在定义好之后,当地震发生时,我们的地震监测设备会将把监测获取的数据,即上述下划线中的内容,填写进对应的字段中,新闻会在一分钟内生成,经人员审核通过后就可以向外发布了。类似的场景有足球新闻中比赛结果的报告、极端天气报告等等。我们可以看见,这些场景中的消息如果由人来进行撰写,那也是一些简单、重复的工作。所以就现在的代写机器人的应用场景而言,确实是能在这些场景中代替人完成很多重复性的事务。

aa

但人和机器一个非常重要的差别,是人的创造性。写作与音乐创作、绘画创作一样,都是属于创作的过程。我们以写作中的翻译来举例子,看下面几段话:

You say that you love rain,

but you open your umbrella when it rains…

You say that you love the sun,

but you find a shadow spot when the sun shines…

You say that you love the wind,

but you close your windows when wind blows…

This is why I am afraid,

You say that you love me too…

常规情况下,我们人和机器来进行翻译,翻译的结果是这样:

你说你喜欢雨,但是下雨的时候,你却撑开了伞;

你说你喜欢阳光,

但当阳关播撒的时候,你却躲在阴凉之地;

你说你喜欢风,

但当清风拂面的时候,你却关上了窗。

所以我无比害怕,

因为你也曾说过喜欢我。

但下面这种翻译方法是机器基本不可能达到的:

你说烟雨微茫,兰亭远望;后来轻揽婆娑,深遮霓裳。

你说春光烂漫,绿袖红香;

后来内掩西楼,静立卿旁。

你说软风轻拂,醉卧思量;

后来紧掩门窗,漫帐成殇。

你说情丝柔肠,如何相忘;

我却眼波微转,兀自成霜。

在这里我们就能看出,机器和人的差异,人在翻译的过程中加入了对诗词意境的理解和自己的情感,这样的理解方式与人自身个体在语言上的天赋、造诣、自身的修养、生活的环境是息息相关的。在短时间内机器在这些方面是没办法达到人的高度。

总的来说,代写机器人是一个非常有意义的产品,它能解放人的劳动力,让人在更多自己适合的领域中发挥自己的价值。同时代写机器人不会代替人,它会在长时间内与人一起,在写作中各自发挥各自的作用,提升人的效率。

 

 

02
AI+这些有趣应用除了博关注度外,您认为其实用价值在何处?

贾学锋:2018年去世的伟大的物理学家霍金,他生前的三大预言之一,便和人工智能技术息息相关:彻底开发人工智能会使可能会使人类灭亡。这里我们不危言耸听,但是随着技术的不断发展,机器通过不断学习,已经可以开始模仿人类的思维方式,之前广受关注的AI+下棋,辩论等等都展示出了这一趋势。

同时,除了这些有趣的应用,人工智能也在给各行各业包括我们的日常生活带来改变,提供便利。举几个简单的例子:

1.  我们达观的文本智能审阅系统,可以帮助财务人员,法务人员快速的从大量文本中提取出他们关注的信息,节省阅读时间,提高工作效率。让他们有更多的时间可以投入到更具创新,更有意义的工作当中。

2.  又比如,现在流行的chatbot,智能客服,通过利用自然语言处理和知识图谱,构建实现了与人沟通的一个客服体系,可以帮助包括电商等服务密集型企业提高售后服务质量,节省人力客服的成本。

3.  还有很多企业场景都可以用到人工智能技术来帮助我们提高工作效率,如智慧医疗,智能安防。

4.  不仅在to B的领域,在to C的领域,人工智能也在慢慢影响我们的生活,智能家居,智能穿戴设备,自动驾驶等等。

我们也期待随着技术的成熟,新技术的不断涌现,能有更多更实用的AI落地场景,给我们的工作和生活提供便利和乐趣。

 

03
人工智能能够从海量的信息中挑选出对补充新知有用的内容,AI如何习得这种能力?

贾学锋:AI不仅可以对海量数据进行统计计算,而且还可以从海量数据中萃取出知识,构建知识的网络,进而在这个网络中进行类似人的推理计算。

大数据时代,海量信息处理是无法通过人工处理的,需要依靠计算机进行自动化处理。最初的做法是人为设定好一些规则,由机器来执行,但特征一多规则就很难制定,即使定下了规则也没法根据实际情况灵活变化。通过机器学习、自然语言处理和知识图谱技术可以很好的解决以上问题,机器学习是使计算机具有智能的根本途径,特别是现在的深度学习技术,更加有效。

04
达观数据在这方面有哪些布局,能否简单分享一下技术原理?

贾学锋:达观的愿景就是成为文本智能处理专家,服务于中国乃至国外的有文字处理的客户。文本智能处理包括NLU(自然语言理解)和 NLG(自然语言生成),我们在文本自动生成技术方面在很积极研究和尝试。在宽泛的意义上,文本生成可分为这4类:

文本到文本、数据到文本、图像到文本和意义到文本。图像到文本和意义到文本等有不少的公司在尝试,后者难度更大。达观目前专注在前两个方向的商业化落地。

1

文本到文本

 

简答来说就是对给定的一段文本,进行变化处理后得到另外一段文本。典型的有:文本摘要、句子压缩、句子融合 、文本复述等。 达观目前和很多的客户在落地这些功能,比如帮助资讯类App进行文章摘要生成,让用户更快地判断推荐的文章是否是自己感兴趣的。帮助政府相关机构对各种政策性文件进行摘要生成等。

bb

目前的文本摘要方法主要有抽取式和生成式两种。抽取式是现在常用的方式,易于实现还能摘要中的句子具有良好的可读性。该类方法主要包括两个步骤一是对文档中的句子进行重要性计算或排序,二是选择重要的句子组合成最终摘要 。会用到CRF, HMM, SVM以及现在的深度神经网络技术等。

2

数据到文本

数据到文本的生成技术指根据给定的数值数据生成相关文本,例如基于数值数据生成天气预报文本、体育新闻、财经报道、医疗报告等。数据到文本的生成技术是具有极强的应用前景的。目前达观在和一些金融公司和商学院合作,去生成股评、公司基本面分析报告、以及某个主题的商业研究报告,例如从各种小米手机的营销文章中,生成关于营销策略的研究报告。这一方面国内的研究不太多,不仅仅是技术层面的事情,更多还要和分析方式结合起来才能做好。

 

现在多采用基于人工模板,将需要的数据填入写好的模板中,从而生成。由于采用的模板比较固定,所以生成的内容会比较类似,缺乏生动。现在多会尝试模板技术、基于NN的技术和强化学习等多种手段的融合来服务不同的业务场景。目前NLG的评估还不是很成熟,这也是制约NLG发展的一个重要原因,如果有更好的评估方法或者存在一个业内公认的高质量数据集,相信NLG会快速发展。

 

05
当前,AI+阅读写作主要应用于哪些行业领域?应用前景如何?

 

贾学锋:可以说凡是涉及到跟文字打交道行业都是可以用到AI+阅读写作。

1、涉及到跟文字打交道最为密切的行业

政府领域,在政府中每年涉及到大量文档阅读和写作工作,比如每年会起草各种政府报告供参会及各界人士学习,少则数千字多则数万字,据统计 2017年两会政府工作报告全文高达1.86万字,全国各界人士据此进行学习领会政府会议精神,这些文档的编写和阅读涉及到了大量人力工作,如果通过AI技术首先进行政府报告编写然后人力进行样式的校验,在阅读方面通过AI技术自动分析文档的核心要义,这样就会大大提高政府部门的工作效率;除此之外法律行业也是如此。

2、涉及到大量重复性人力劳动的行业

cc

比如金融行业,金融行业我们一般会分为银行、证券、保险、基金等四类,以证券行业为例,券商中会涉及到大量不同种类文档处理比如债券募集说明书,企业发债都需要提交债券募集说明书并对其进行严格的审核才能够通过并进行发债,这里面涉及到债券募集说明书的编写和审核工作,以审核为例从小到错别字和格式审核再到数据一致性、数据计算错误最后到基于业务层面的完备性审核方面都会涉及到,审核原理其实就是通过阅读理解文档所表达含义进行相关工作。

我们人类阅读的速度要远远快于写作的速度,与此类似在目前AI+阅读的技术相比较AI+写作技术也要更为成熟些,我们现在所面对的AI+阅读写作在行业的应用还只是沧海一粟,随着AI技术不断发展行业需求不但激发他们结合会愈发紧密,我坚信未来AI+阅读写作在行业中会有更广阔的空间。