在搜索引擎面世之初,大众常见的是谷歌、百度等面向个人用户的搜索服务,可以查找互联网上资讯、软件、商品等内容,满足人们探索和获取互联网信息的需求。企业级的搜索是在办公场景下,对内部的文档材料和系统数据信息进行管理和检索,目的是为提升企业内的信息获取效率。
搜索引擎的技术发展了十多年,很多企业仍然采用的是关键词查询和简单匹配的方案,搜索不准、功能单一、效果堪忧。在企业发展过程中,系统与数据在不断增加、业务覆盖范围在持续扩大,信息传递效率在逐步下降,企业级信息检索的现状是:数据散落在割裂的各个系统之中,内容量的增加让搜索效率降低,不支持图片表格音视频内容的检索,用户直接查询数据库有一定门槛,同一个概念的业务实体要查询多次。在技术水平、应用效率和用户体验上,传统的企业级搜索都大大落后于互联网搜索:
1、 搜索是软件系统的标配功能,大部分系统都有搜索入口,因数据存储和检索能力各有差异,用户在查询资料时经常来回切换,非常不方便。
2、 近几年自然语言处理、深度学习等技术发展迅速,相比过去,文本处理和语义搜索效果有明显改观,对多源异构信息的查询效率有了极大提升。
3、 企业级搜索的背后是统一数据和知识管理,是开展桌面办公智能化、流程协作自动化等应用的基础。(达观数据)
构建企业产品需要理解客户的业务目标、建立相应的解决方案以尽可能满足其业务需求。企业级查询的难点集中在三个方面:数据与权限的集成、查询效率的提升、搜索背后信息组织方式的优化。
达观数据作为专注于文本智能处理的人工智能企业,专注于利用先进的自然语言理解、RPA机器人流程自动化、OCR光学字符识别、知识图谱等技术,为大型企业和政府机构提供文本自动抽取、审核、纠错、搜索、推荐、写作等智能软件系统。在客户服务的过程中我们发现,要做好企业级搜索要满足以下四方面的需求:
好:效果优秀
搜索要解决信息查询的问题,搜索引擎的效果好坏直接由查询结果的全面性和准确率体现。
全面性是指在输入信息有限时,理解查询内容、找到尽可能多的隐性相关的内容,把尽可能全面的相关结果给到用户,至少涉及到意图理解、语义理解、向量搜索、知识工程构建等方面的任务;准确率即召回多条结果的情况下,确保用户需要的结果尽可能靠前/第一位显示,这依赖于行业语料的挖掘、多层级的匹配与排序机制、结合业务特征的算法策略以及可持续优化的系统架构。
对于企业搜索项目而言、开源搜索引擎的作用更多是一个基础框架,因为当面对特定领域的文本挖掘、多轮召回排序、debug排序优化等具体任务时,都需要相应的算法技术与业务适配性的投入,才能保证搜索的效果足够优秀与可靠。在特定的行业领域,即使技术实力强如Google,相比垂直的企业搜索公司效果有时也会略逊一筹。
全:能力全面
企业服务系统在一定程度上是在特定场景的解决方案,而不仅仅是一个工具或标准化产品。员工搜索时常常碰到的问题有:图表内容无法识别、业务词库查询无结果、搜索结果信息大面积冗余、自然语言查询不支持、目标内容之间的关联性低等,管理维护人员面对的问题有关键数据统计缺失、搜索效果无法量化评估、系统集成无法标准扩展等等。大部分是技术模块的缺失,解决方案覆盖不足导致的。
企业信息查询的诉求是长期而非固定的,要考虑信息查询的内容效果,在文本挖掘功能、知识卡片维护、数据的处理分析、算法效果评估、数据的集成扩展等诸多的模块上,要具备相应的功能可用和架构设计的远见,明显不同于C端产品的“简洁之美”,企业应用是要兼顾当前整体使用效率和持续可维护能力。BAT等巨头的搜索系统平台,有上千人的开发和运营团队在持续迭代,要达到同等水平的搜索体验,对企业的各方面技术要求是一项不小的挑战。
通:资源统管
企业数据资源的统一管理是实现企业统一搜索的重要一步。需要纳入管理的系统数据,往往是多源异构的,其中包括有本地文件、数据库、资料管理系统、业务/应用系统等等,每一类系统都要解决资源获取、权限对接与更新同步三大问题。这意味着对常见的系统要有比较成熟的解决方案,同时面对差异化的系统有快速接入的开发能力。
一些数据驱动和IT管理意识领先的公司,已经在实现数据中心的集中管理,对企业内的数据资源和访问权限做了统一管理。每个系统要纳入搜索的数据范围和数据类型不同,索引结构不同,统一查询入口需实现基于查询意图理解的聚合排序。在融合结构化信息与非结构化信息的过程中,对同一实体知识在不同系统中的关系设定,则需要运用到知识图谱相关技术,从业务层面进行知识建模,对实体知识及其关联属性的管理,从而实现业务视角上能够发现、管理和分析系统中信息关系的能力。
深:行业延伸
在企业搜索领域,十多年前就用公司提供简单基础的软件程序,以关键词的模糊查询提供服务。随着各行业信息查询需求在升级,企业对搜索的定位和要求,已深入到了为业务目标服务的层面。
金融投资领域的信息检索,包含有海量资讯搜集、机构信息数据获取、事件分析挖掘等,涵盖有数据收集、清洗、整合和推理等,形成了偏关联性推理导向的需求;电商场景中有大量商品与服务信息,商品查询的目标体现在个性化匹配、销售额整体转化率、平台流量的分发与管理上;客户服务领域的信息查询,更多的是对非结构化文档的内容处理,对客户化的QA问答、会话任务处理和文档材料查询上;人力资源领域的JD简历查询,则是以理解业务知识为基础,信息填充到搜索的知识图谱中去。
通用而粗浅的搜索软件程序,已无法对复杂的业务查询形成有深度的助力,每一个场景背后都是需要多项能力的组合方案。
达观数据的搜索方案专注在金融、司法、制造业等行业,构建的是包含了统数据获取、模型训练、搜索应用与管理的企业搜索平台,在核心的算法技术与架构、行业场景数据积累、模块化解决方案组件三个维度进行沉淀积累,形成专业的企业搜索解决方案。
企业级搜索平台分为智能分析、智能搜索、智能展现、智能管理四方面能力:
智能分析
达观数据搜索平台的智能分析模块,包含内容处理与内容分析两部分。
内容处理是指对需要接入的数据内容做基本处理:
1、先进行结构化的转换,比如图片内容进行OCR的光学字符识别、语音内容进行ASR的文字转换等,让多媒体格式转换为文本信息。
2、对相应的内容进行拆分和提取,典型的如期刊文献会有标题介绍、插图、表格提取、结构化目录、时间/来源等要素的提取和关联。
内容分析则是对要搜索的内容进行挖掘和建模:
1、在内容的语义理解的层面上,对历史查询和目标文件进行处理,以自然语言理解技术在字词层级做新词发现、词性识别、扩展词挖掘;在语句段落层面做查询意图分类、依存句法识别、文本纠错等处理;在段落和文章级别进行内容分类、主题模型、自动摘要等处理。
2、根据具体的场景需要,在业务应用层面构建定义统一的业务知识模型,抽取业务实体属性、做知识对齐数据融合,为关联推理等知识图谱应用服务。
整个智能分析的过程是在搜索发生以前,涉及到数据清洗、模型训练调优、人工校验等工作,是机器对所要处理的内容进行理解的过程,同时需要业务专家介入指导。分析处理等工作用户是无感知的,但会明显的影响上线初期的查询效果。
智能搜索
智能搜索的能力贯穿整个用户搜索流程,一次完整的搜索流程,是从用户针对某一目标输入内容开始,到进入到下一个搜索目标开始时结束。
对不同用户,在搜索时是带着各自的用户画像进入的,热门搜索、输入提示、意图分类等应用加快查询的理解;搜索内容改写、语义扩展词等是对查询内容进行补充;通过语义标签、自动摘要、筛选和排序选择等功能,搜索引擎能快速定位到结果范围。
排序是搜索引擎的核心模块之一,可以简单分为基础粗排序、精确排序和业务重排序三个步骤,分别是指根据查询相关性函数的模型排序、基于行为数据学习的模型排序、业务逻辑中特殊情况排序。搜索后的切换关键词、筛选、点击、翻页等都会记录到搜索中的行为日志,会影响搜索的排序模型调优和效果分析。拉开搜索的水平效果的,主要是粗排的召回策略和精排的学习算法两个环节,这里涉及到诸多技术和算法细节。达观的排序框架会根据业务场景进行模型与策略上的调整。
精准度提高的同时,搜索的查询范围和查询方式也在扩大:支持对图片、音频、视频等格式的内容进行搜索,对QA问答、Wiki百科、流程嵌套附件等复杂结构的定位搜索,表格内容信息理解与查询,图数据库的推理、问答和对比等复杂逻辑的查询等等。
智能展现
达观数据企业搜索平台在用户搜索到内容后,结果的显示包含知识卡片、结果列表、图片和数据图表、系统服务界面、知识图谱等多种呈现的形态。
知识卡片是根据确定的搜索意图,以用户易于理解的形式将结构化信息重新组合呈现,可以实现对人物卡片、物品信息、组织架构、接入的系统服务(比如邮箱中往来邮件、OA中请假流程等)等的快速搜索理解和嵌入式卡片信息呈现。对结构化数据以图形化呈现,把表格数据以业务场景的需要自动转换为直观的图表,针对经常使用的数据场景,预置了诸如分析比例构成的环形图、相互比较的走势图、关联分析的散点图等,省去了人工对数据处理取结论的繁复过程。
在语义搜索的同时,同步对知识图谱进行查询,在推理问答等的业务场景下,图数据库的查询效率和可解释性更好,信息脉络关系呈现更直观。
智能管理
达观企业搜索平台的智能管理,主要是包括数据统计、模型训练和算法评估、文档内容管理、搜索配置等的管理,以及部分常用的数据系统的接入与权限管理。
搜索的数据统计分析是将用户端查询进行记录,根据指标进行统计分类和分析,体现出搜索整体的情况,比如热门搜索、搜索无结果等。搜索的管理配置则包含有意图分类训练、badcase管理、算法效果评估、词库管理等工具,提升搜索引擎在算法效果的客观性和维护效率。
企业级搜索面对的数据源主要有数据库类、知识文档管理类、各类IT办公系统类、互联网采集类、生产制造系统类等等。为确保数据对接准确与规范,一般会把数据和权限信息按照指定的接口上报给搜索引擎,或者对要接入的系统资源定时扫描同步变更。搜索平台采用RBAC权限管理机制,基于统一的用户和角色对接入资源进行权限管理。
通过互联网搜索信息几秒就可以找到所需内容,而在工作场景中常常发生的是,昨天在公司某系统看到的文件今天就搜索不到的情况。从企业内的实际情况来看,一个“公司里搜不到信息”的情境,不仅仅是搜索技术的问题,其实也是企业协作效率、IT技术能力、管理水平的体现。(达观数据)
业务视角
业务往往是企业的核心竞争力,员工在信息获取能力上的差异,也影响着工作效率,知识在企业内部的能够有效的沉淀、管理、传递与扩散,会给员工的业务能力和决策效率带来提升。
国内某科研机构的智能搜索项目上线时,同步挖掘了报告材料间的上下游、引用、转述等关系。研究人员在查询到目标报告时能直接体现出材料之间内容关系,间接提高了机构课题研究的工作效率。
技术视角
信息技术对业务的赋能后,使得企业实现弯道超车的案例比比皆是,技术创新的收益往往比较直观。当前人工智能技术应用的价值,已经在被各行业的头部企业所认可,智能文本处理是企业内应用较为普遍的一类:文档资料数据的搜索、合同的自动审核比对、商品的个性化推荐、系统数据自动化流转等应用比比皆是,文本智能化正在迅速地应用到桌面办公的各个场景。
搜索是多项文本智能技术的汇总,有着比较广泛的企业应用场景覆盖,比如企业级搜索、对外的服务查询、资料文档库搜索、多媒体信息查询、智能客服、系统日志查询分析等等。
管理视角
企业搜索能够与企业的门户、文档信息系统、通讯/流程/培训系统、资源业务系统等进行整合,各部门因工作目标和内容的不同,对企业目标的理解和执行难免会有盲区,实施此类多部门跨业务的项目,需要管理者透视公司的信息流和业务运转,高瞻远瞩地规划建设方案和管理思想,落地务实地推进系统能力和应用效果,发挥企业内搜索到统一信息知识管理的价值。
搜索是企业信息资产整理汇总后的出口,每个员工都可以各取所需,企业级搜索的应用是信息、业务、管理的组织效率的体现。运用企业级搜索,小到找出一份合同补充材料解决内部沟通的效率问题,大到针对核心产品盘点资源投入以洞察公司的发展情况,在多个视角下企业搜索都能发挥出相应的价值。运用人工智能技术去重塑企业级搜索服务,是企业全方位的效率提升。
BOUT
关于作者
张泓卿:达观数据项目合作部资深解决方案专家,企业搜索产品经理。对人工智能产品的产品定位、规划迭代、方案设计与落地有一定的理解,对AI产品的行业解决方案落地与新技术商业化有浓厚兴趣。