新年将至，沉睡的文本数据也该醒醒了丨达观动态-达观数据-企业大数据技术服务专家

新年将至，沉睡的文本数据也该醒醒了

分类：行业见闻
发表：2018-02-13

随着企业收集的非结构化数据不断增加，文本智能处理的价值和流行趋势也处于上升阶段。越来越多的企业意识到利用文本挖掘从企业文本资源库中提取知识和提升效率的重要性。

达观数据联合创始人桂洪冠，近日作为邀请嘉宾在年末亿欧四周年庆典上和各领域嘉宾一同探讨了文本挖掘在企业中的应用现状及未来前景展望。桂洪冠作为文本智能领域的处理专家，在大数据架构与核心算法以及文本挖掘等领域有深厚的积累和丰富的实战经验。

和我们熟悉的结构化数据不同，当提到文本数据时，常有以下几种特点：

数据无结构化

文档格式多样化，通常以PDF、Word、Excel，PPT、TXT，HTML等多种格式存在。

文件形式多样化

法律/人事/证券等行业的各类文书，企业内部的公文和办公资料、VOC客户评论意见、客服FAQ问答语料，各种合同标书文件，以及各类新闻媒体资讯等。

多语言

中英文语料都有。

如果说上述各类复杂多样的文本数据是我们的原始的矿产资源，那么文本语义引擎就是挖掘机，这台挖掘机能从原始文本数据中挖掘提炼出有价值的知识信息。

我把人工智能对文本的智能处理过程概括为四个词语，分别是对文本的抽取、划分、匹配和生成。

抽取

抽取是从无结构化到结构化的关键信息抽取，具体来说就是从大量的文本中自动抽取出指定类型的关键信息，比如对合同、商务票据、人事简历、法律文书等文档中的核心内容的自动识别和提取。

划分

划分其实就是分类，比如对各类文档内容的自动审阅和审核。更具体的场景比如对合同各条款的潜在风险识别，不一致性检测，自动纠正文档中错别字（目前很多文档来自对纸质文件的OCR扫描，存在大量形近字错误）、涉黄涉政内容识别、垃圾评论识别、广告内容识别等。

此外还有VOC客户意见分析，自动从用户的评论数据中识别提炼出用户的观点、情感、意见，以此指导产品设计和运营。

匹配

从文本的匹配的角度看，利用语义分析技术提供的功能极为强大的搜索引擎服务，支持各类模糊匹配、语义联想、正文各个段落精确定位查找等功能，具体产品如HR人岗精准匹配系统，司法领域的案件智能匹配系统等。

再比如，根据用户阅读行为自动生成用户画像模型，并从用户的兴趣偏好出发，提供个性化的千人千面的信息推荐引擎。

生成

从文本生成的角度看，知识图谱实现的是从面向字符串的文本世界到实体及关系的世界的一种生成，知识图谱强调的是从关系的视角看世界。

谷歌在2012年率先提出知识图谱的概念并基于大规模知识图谱显著地提升了搜索引擎的效果，让搜索引擎能够对“姚明的老婆的女儿的身高”这样复杂的问题直接给出答案，而普通的基于关键字匹配的搜索引擎对这样的问题的召回结果可想而知。

新年将至，沉睡的文本数据也该醒醒了

知识图谱通过知识卡片可以呈现出更丰富直观的的知识结果。继谷歌之后，国内的百度和搜狗也先后推出了他们的知识图谱产品知心和知立方。谷歌、百度、搜狗他们提供的都是通用的知识图谱。对企业而言，更容易落地的是，我们基于客户的行业特点、专业术语、知识结构，定制专属于客户的行业知识图谱，并为客户的各个业务系统输出基于知识的服务。

我们说语言是构建人类认知体系的基础，而文字是语言的主要载体。所以，对文字的理解和运用是机器通向认知智能的必由之路。我们来看看文字数据的特点：

表达非常抽象而精炼的概念

文字可以表达非常抽象而精炼的概念，比如智能、高尚、美好、唯心主义等词语。人类的智慧就是基于对概念的层次抽象向前演进的。

蕴含丰富的背景知识

文字背后蕴含丰富的背景知识，比如“万事俱备只欠东风”的背景知识是三国赤壁之战的火烧赤壁, 再比如”to be, or not to be”的背后是莎士比亚的哈姆雷特式的艰难抉择。

人类智慧存在的高级形态

人类的哲学经典、宗教法则、历史典籍、文化伦理、文学巨著等等无不是以文字的形态存在。

极为灵活、庞杂

文字还极为灵活、庞杂，尤其中文存在大量的歧义、隐喻、反讽、双关、转义、多义等特点。比如乒乓球拍卖了（球拍存在语义切分的问题），比如五个公司的工程师（五个修饰的对象），比如做手术的是他的父亲（做的具体含义有歧义），比如咬死了猎人的狗（是否省略了咬死的动作主语），比如他的仪表不好（仪表是器材还是外貌）等。

达观数据在文本语义方面积累了独到的核心技术和丰富的行业经验。

在技术实力方面，达观处于行业领先位置。智能文档审阅系统和语义匹配引擎的核心是自然语言处理技术，达观数据在相关领域拥有30多项的国家发明专利。

在行业经验方面，已经给超过50个细分行业、数百家企业（包括很多500强企业）提供合同像文档自动解析、智能客服问答、HR人岗精准匹配、VOC客户意见分析等多项文本智能处理服务。

达观数据在文本语义方面积累了独到的核心技术和丰富的行业经验。在技术方面，达观处于行业领先位置。智能文档审阅系统和语义匹配引擎的核心是自然语言处理技术，达观数据在相关领域拥有30多项的国家发明专利。在行业经验方面，已经给超过50个细分行业、数百家企业（包括很多500强企业）提供合同像文档自动解析、智能客服问答、HR人岗精准匹配、VOC客户意见分析等多项文本智能处理服务。

下面将结合达观数据的实战经验为大家呈现文本智能处理的应用案例。

自动抽取文档关键信息

新年将至，沉睡的文本数据也该醒醒了

这是一个通过达观语义引擎自动抽取合同文档中的关键信息的例子，可以抽取出合同主体、完成时间、总金额、税率、发票类型等关键信息，左侧对自动抽取的对不同类型的关键信息以不同颜色高亮显示，可以直观的显示抽取的不同类型的关键信息。

右侧展示抽取的结构化标签信息，更进一步这些结构化标签信息被导入数据库或其它应用系统，比如导入到搜索引擎中用于合同结构化信息的精准检索。

自动识别文档风险内容

新年将至，沉睡的文本数据也该醒醒了

在上这套系统之前，客户基本是靠人去仔细阅读合同的每一个条款，因为每个条款都可以存在各种潜在的风险，比如财经的风险、法务的风险、技术的风险、交付的风险等。对大型企业来说，通常合同信息很多，而且每份合同都非常长（平均百页以上）。

人工通篇阅读合同全文条款意味着巨大的工作量。 达观的系统对合同文本中存在法律风险的条款预先识别和标注，训练生成一个风险判别模型，借助这个判别模型系统可以针对问题条款进行法律风险识别提示，还能提供标准条款示例以及相关案例信息关联，在应用达观的智能合同审阅系统之后，工作效率翻了数倍。

VOC评论观点提取

新年将至，沉睡的文本数据也该醒醒了

以达观服务的一个客户为例，这个客户也是国内最大的手机厂商，客户每天从全球多个渠道实时汇总了大量的（百万级的）用户评论信息，达观的VOC系统自动从这些评论数据中实时提取用户的意见、观点和情感，进一步通过对这些意见、观点和情感的聚类分析，可以建立产品的危机模型，及时发现热点问题，也可以通过词云展示动态监控舆情。

另外通过对用户的意见、观点和情感的升降趋势分析，辅助指导企业运营思路，及时优化调整产品设计方向。

智能人才搜索平台精准匹配简历

和普通的基于关键字的搜索不同，达观的人才搜索平台能根据JD的内容从海量的简历库中自动精准匹配到最满足JD条件的候选人简历。人才搜索平台背后是复杂的语义分析引擎，通过对JD和简历构建多维度的画像模型，在语义空间对JD和候选简历进行相似度计算。

新年将至，沉睡的文本数据也该醒醒了