达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

智能化进阶,如何用文本语义理解技术优化推荐系统?

NLP将推荐打造成“精装房”

相信大家对推荐系统一定不陌生,尤其是打开淘宝时,首页的“猜你喜欢、便宜好货”、购物车下面“你可能还喜欢”、商品详情“店铺推荐”……推荐系统已成为各大app标配。但什么是NLP(Natural Language Processing)技术呢?可能有的人会感到陌生,NLP也就是人们常说的自然语言处理或者叫文本语义理解——研究如何让计算机读懂人类语言。

推荐系统和NLP是什么关系呢?如果用熟悉的房子装修做比喻,普通的推荐系统相当于“毛坯房”,NLP相当于装修材料,有了NLP的推荐系统就是“精装房”。“毛坯房”也能住,但是不够舒服,映射到推荐系统,就是效果有点差强人意,体验不够完美。

NLP如何“装修”推荐系统?

触及到文本信息大概率会用到NLP,推荐又是和内容打交道,与NLP交汇甚多,下面我们详细说下NLP在推荐系统中应用。

 

1.构建物品画像

 在达观服务的客户中,大家经常反馈的问题是,想尝试接入推荐系统,但是物品信息可能不多,标题有,但标签和类别都没有,这时候还能接入推荐系统吗?当然可以。NLP可以通过分析物品标题、正文、描述等信息提取标签、赋予主题词和分类等。

 

  典型代表:搜狗

输出:标签+分类+关键词

                           

pic_001

2.审核物品质量

现今很多APP注册门槛低,内容大多来自于用户上传,这样一不留神就因出现低俗内容导致“网站被关”,对于推荐而言,有必要对被推荐数据进行审核过滤。对于视频或者图片,目前采取人工审核较多,对于文字就方便很多,目前市场上涉黄、涉政、反动、广告等审核比较成熟,但也难免有漏网之鱼,人工复核也很有必要。

反过来,推荐也可以审核文章质量,通过推荐可以知道产品的点击率、点击率、阅读/播放时长等数据,可以筛选出用户喜欢的内容。推荐有试探机制,对于新上线的内容,会选择部分用户推荐,如果效果不好会减少推荐力度,反之加大,很好的在节约成本的前提下最大化挖掘内容信息。

 

典型代表:梨视频、小红书

过程:机器全部初审->人工部分精审->智能分发

 

pic_002

3.NLP连接搜索和推荐

以前的搜索系统更多是千人一面,但是随着信息丰富,当你只需要10个结果,但是输入“苹果”标题满足这个要求的结果上万个,之后如何从10万个中挑选10个给用户展示就可以用到NLP和推荐技术了。需要将搜索词和产品标题、标签、描述等信息进行匹配,匹配的程度越高,会认为相关性越大,同时基于用户日常点击、购买等行为进行结果推荐。看似是个很简单的过程,但是细节很多,对标题分词进行准确、模糊、单词匹配就不是一件容易的事,由于可用的信息太多,需要对不同特征进行归一处理。

 

典型代表:谷歌、虎扑识货

功能:谷歌打造千人千面搜索;识货在搜索结果不足页面引入基于搜索词推荐功能

 

pic_003

4.基于文本生成创意展示

在闲暇之余,用户倾向于看到更容易理解的内容,在用户没有明确意图的时候,给用户一个推荐理由往往可以达到事半功倍的效果,例如:当用户买了苹果手机后,可以推荐ipods,同时给出“ipods与苹果手机更匹配哦”;在好友推荐的时候,可以给出“她和你都是天蝎座”……同时,NLP可以提取出一些简短信息,用于向用户展示。

 

典型代表:大众点评

输出:摘要标题+商户文案+内容聚合

示例

  • 摘要标题:顾名思义,就是针对某条分发内容生成摘要作标题展示。点评内容源非常多样,但超过95%内容并没有原生标题,同时原生标题质量和多样性等差异也极大。
  • 商户文案:生成有关单个商户核心卖点的描述,一般形式为一句话的短文案。
  • 内容聚合:生成完整的内容页包括标题及多条文案的短篇推荐理由,不同于单商户文案的是,既需要考虑商户的相关性,又要保证理由的多样性。

pic_004

5.满足业务需求

在推荐结果中,不同客户都会加入一些业务规则,例如:

1)对于资讯行业,现在很多文章标题都差不多,防止用户感觉重复,在推荐时,标题相似度大于80%的内容不一起推荐,这里会用到文本相似度计算

2)业务范围较广的APP会进入地域频道,在推荐时,上海频道只推荐上海新闻、合肥频道只推荐合肥新闻这里会用到地域标签提取

3)某个关键词的内容屏蔽不推荐,这里会用到关键词与标题的文本进行匹配和分词技术

pic_005

 

业务规则使得结果更符合企业要求,同时也加大了推荐厂商的门槛。

 典型代表:澎湃新闻

功能:地域推荐,标题相似度处理

pic_006

对于推荐中NLP,难点在于物品中结构化文本数据太少且文本内容信息量不确定。NLP研究难度大,看似容易,但是其底层涉及到分词、词性标注等一系列基础工作。达观数据作为专注于NLP技术研发与应用的人工智能企业,在推荐系统中深度融合的NLP语义理解技术,从推荐用户意图理解、用户满意度、推荐效果等方面为客户提供更智能的推荐系统。