8月14日,2020全球人工智能产品应用博览会(AIExpo2020)在苏州国际博览中心隆重召开。全球智博会分论坛之一——“以认知·见新智”知识图谱产业发展高峰论坛暨“I CAMP”知识图谱产业加速营II期发布仪式在第二天下午正式举办。
本次知识图谱论坛集结了来自政府、学界、业界等多位领导与大咖莅临出席并发表讲话与主题分享,聚焦人工智能行业知识图谱与金融、政府、零售、工业的深度融合,关注AI行业最通用、最成熟、最创新的实践案例。
达观数据联合创始人兼副总裁桂洪冠受邀出席大会,并进行了题为《知识图谱行业应用》的演讲,分享了达观数据在知识图谱应用和文本自动化领域的多年核心先进技术积累与及成果经验。
AI时代,知识图谱被认为是从感知智能通往认知智能的重要基石。知识图谱作为知识的一种形式,已经在语义搜索、智能问答、数据分析、自然语言理解、等多个方面发挥出越来越大的价值。
作为国内文本智能处理的领军企业,达观数据在知识图谱领域一直进行相关的研发与行业落地推动工作,不断实现技术成果的突破。在2019年全国知识图谱与语义计算大会(简称CCKS)上,达观数据提出的模型方案在CCKS的测试集上达到了0.978的准确率;在文本段落信息点提取子任务中,方案最终获得0.940的F1-score。最终两项任务以0.959F1值高效斩获CCKS 2019“公众公司公告信息抽取”大赛任务亚军。
在分享活动现场,桂洪冠结合达观渊海知识图谱平台介绍了知识图谱在智能搜索、企业风险监控、供应商管理、制造业设备故障分析以及辅助军情分析中的应用。
关于达观渊海知识图谱平台
渊海是达观数据自主研发的一站式知识图谱构建与应用平台。在平台构建方面,针对结构化数据和非结构化数据分别提供映射式和抽取式构建方法,底层存储与Hadoop、Spark、Hbase、JunusGraph、ES等分布式大数据平台无缝集成。
渊海支持千亿级实体属性和边的存储,内置丰富的图计算和挖掘算法,可以快速实现路径分析、社群分析、中心节点和重要节点分析、关系挖掘、图谱深度探索、语义搜索、智能推荐、智能问答等常见应用。
在探讨知识图谱的具体应用之前,简述一下知识图谱的构建与应用过程,以及两者之间的关系。
从需求定义、数据梳理到知识建模,需要业务人员的参与,知识构建和知识存储,主要是通过机器学习、自然语言处理等技术手段从给定的数据中挖掘出知识元素(三元组)并融合到分布式图数据库进行存储,以便于知识的探索和应用。构建是基础,应用是目的,应用(知识运营)反向驱动构建,形成一个知识构建和应用迭代演化的过程。
谷歌在2012年首次正式提出知识图谱的概念,其主要目的在于提升搜索引擎的用户搜索体验。在谷歌搜索某个人物的时候,右边窗口会出现该人物的知识卡片,知识卡片可直观的呈现人物属性和相关人物信息。
传统搜索引擎主要做法是关键词提取、通过关键词匹配倒排索引表,生成匹配结果,再对结果进行排序,给出的是排序后网页列表,而没有呈现出知识的关联效果。通过知识图谱的子图匹配和简单推理,可以直接对问题给出精准的答案。
知识图谱还可以用于推荐系统,比如在影视视频领域,基于用户兴趣推荐同一导演或主演的作品,推荐相关题材的作品,还可以基于用户社交关系进行推荐,推荐结果可解释性好,也解决了初期缺少用户行为数据的冷启动问题。达观数据应用次方式在实践中取得了不错的推荐效果。
知识图谱在越来越多的行业开始得到应用,这里主要列举了金融、制造等达观数据的应用领域。
●应用1:金融业欺诈识别●
知识图谱在金融业的首个典型应用是欺诈识别。信贷业务是银行的核心业务,而信贷业务的核心是借款风险审核,借款端风险的主要来源之一是欺诈风险。
传统的反欺诈手段主要依赖于信息的人工审核,而身份证、手机号码、银行流水等材料的伪造成本非常低,各类信贷机构均不得不投入大量的人力用于核实信息主体的身份及其提供材料的真实性。
通过知识图谱关联比对分析不同借款人填写的公司信息、联系方式、居住地址、社会关系等信息,可以进行信息的不一致性验证,识别组团欺诈、进行黑名单发现。还可以通过短时间内是否在多个不同设备进行多次登录来发现羊毛客。
●应用2:金融业智慧营销●
知识图谱在金融业另一个应用是客群自动发现和精准营销。通过知识图谱来挖掘潜在客户,实现“获客”。目标客户B与客户A是在腾讯公司的同事关系,且都住在南山区同一小区,就可以给目标客户B推送同类的商品或服务,实现对个体客户的精准营销。
通过对具体的用户行为序列的模式挖掘,在抽象的维度上实现不同客群的划分,发现客群之间、客群与产品之间的隐性关系,实现基于客群和产品的定向营销。
●应用3:金融业资源优化●
其次,知识图谱在金融业可以做大型银行网点资源优化。首先生成网点业务人员画像图谱,网点设备资源配备图谱、网点业务数据特征图谱,分析比较不同网点的人员特征、设备特征、业务数据特征、辅助实现网点资源优化配置智能决策系统。
●应用4:智能搜索●
基于知识图谱实现语义关联式搜索。比如:“对公业务的银行开户需要什么材料”,对于这样的搜索问句,知识图谱可以进行语义关联搜索,召回公司开基本户所需材料、所需角色、时间要求、营业网点、预约方式等内容,并以结构化的图文并茂的方式进行呈现。
知识图谱智能搜索还表现在精准的给出问题的答案。比如通过从格力电器的公司公告中挖掘出的结构化信息,可以实现结构化搜索,比如问“格力电器参控股的公司主要业务有哪些”,知识图谱可以直接给出答案。
●应用5:企业风险监控●
企业风险监控是金融信贷、投融资、产业链分析方面的热门课题,知识图谱的主要作用在于其提供多源异构数据的融合,实现不同类型风险事件的关联传导分析,根据一定的规则实现风险预警。
例如,宁波东力在收购收购了深圳市年富供应链有限公司之后,年富供应链并表后,宁波东力的资产负债率也陡然上升,同时应收账款的比例也陡然增加。与年富供应链有关联的公司(投资、企业高管投资或者任职)都应该是银行的重点关注客户。
●应用6:供应商管理●
基于企业、事件、舆情图谱,从事件驱动角度出发,发现企业供应商和工程相关责任人风险。
比如珠港澳大桥香港段项目,嘉科工程顾问有限公司是该项目的混凝土压力测试的承建商,黄国尧是该顾问公司的实验技术员,负责项目的材料压力测试,有新闻爆料此人曾涉及工程质量虚假文书罪,根据新闻分析结果和基本的常识推理,其所负责的相关工程项目大概率存在重大质量问题风险,嘉科工程顾问有限公司的供应商资质也需要重新审核。
●应用7:制造业设备故障分析●
苏州是世界制造业强市,知识图谱在制造业的应用值得探索。
以设备故障分析为例,通过对故障分析报告、检修报告、相关产品手册等文档的关键信息抽取,形成以故障为中心的高质量的知识图谱网络,包括故障发生的环境参数、排查步骤、归因分析、对策与验证方法,以及故障的分类体系,与之关联的产品、设备、设备供应商、工艺流程、工艺环节等,辅助进行失效模式分析、相似故障与解决方案搜索、故障分析报告辅助生产、故障关联与可视化分析等。
●应用8:辅助军情分析●
知识图谱可以应用于辅助军情分析。当前日益复杂的周边局势,对海量的多源异构情报大数据的自动化挖掘分析提出了深层次的要求。
我们通过深度神经网络算法对目标事件和特征进行自动识别抽取、对多源异构数据进行关联融合和交叉印证,生成以目标为中心的知识和事件图谱网络,辅助挖掘分析目标的行动轨迹模式和事件活动规律,基于特定的规则做异常事件告警以及目标行动意图预测等。
1. 构建“鲜活”的知识图谱:保持知识图谱知识内容的动态更新和持续演化,实时融入最新的业务知识与数据。比如对于工业设备知识图谱,需要实时融入设备的运行状态数据和指标数据。
2. 人在回路之上:在当前的弱人工智能阶段,无论是知识图谱的构建过程还是应用过程(知识运营),尤其复杂的智能决策场景,人的作用是不可替代的,人机交互是当前人工智能系统的主要产品形态。
3. 文本挖掘是关键:各行各业的专家知识和经验大多以形态各异的非结构化文档资料的形式存在,如何从这些非结构化文档资料中进行知识挖掘,自动生成机器可以进行语义计算和推理的分布式知识表示,深度学习和自然语言处理等文本挖掘技术是关键。
4. 知识图谱融入机器人流程自动化:通过知识图谱作为底层知识引擎,可以把业务专家的知识经验、行业规则、基本常识进行组织并实时赋能给RPA(Robotic processing automation)机器人,让机器人变得更有“学识“,以适应更多更复杂的场景。