如何解决热门推荐的3大难题？丨达观动态-达观数据-企业大数据技术服务专家

1.前言

自豆瓣在个性化推荐的尝试，到现在新起之秀的今日头条、电商巨头的亚马逊利用个性化推荐成为行业中的佼佼者。很多互联网企业开始将目光开始聚焦在个性化推荐，希望通过个性化推荐赢得市场。

热门是互联网产品中最常见的功能之一，如“大家都在看”，“今日爆款”等字眼随处可见。热门结合了众多渠道，发挥着提供最热优质的内容服务的作用。

个性化推荐强调于精准性，要求在这个信息过载的互联网世界中能够精准推荐出符合用户感兴趣的产品。而热门具有统一性，不管个体用户的行为，热门的数据都是统一的。这两者看似相悖，但试想一下，若周围的朋友都在讨论热点事件时，你却一无所知，是否感觉与整个社会脱节了呢？因此，在追求精准性和个性化的同时，也需要考虑社会统一性。

那么如何将热门有效的融入到推荐系统呢？接下来，带您开启个性化推荐的宇宙飞行之旅，该班次出发于分析热门的优劣；小憩于如何解决热门劣势；中转至个性化推荐与热门的结合；到站于精准性与统一性共存的“推荐星球”。

2.热门的阐述

每个人对热门都会联想到很多词语，如热销榜、畅销书籍、网红等等，热门在日常生活中扮演着越来越重要的角色。同样，在互联网中，热门也占据着重要的地位。热门的应用场景十分广泛，下图展示了部分领域中的热门应用：淘宝（电商）、爱奇艺（视频）、微博（社交）、酷狗（音乐）。

接下来从三个方面深入了解热门：热门的影响因素、热门的优势以及热门的弊端。

pic_002

图热门的应用场景

2.1热门的影响因素

结合现实来说，热门主要受三个部分的影响：物品自身的属性、用户的反馈以及时间。

物品自身的属性：

若两部电影同时首映：《少年的你》和《半个喜剧》，相信绝大部分观众都会选择《少年的你》。因为《少年的你》是由流量小旦（易烊千玺）和实力演员（周冬雨）饰演，且经过了前期大量的宣传。因此，从物品自身属性来看，两部电影是无法相提并论的。

用户的反馈：

物品自身的属性虽然看上去属于天然优势，但是在实际的算法中也不会占据主要的地位。内容是否真的好，还需要真实用户的检验。在推荐星球中，用户的行为（浏览、点赞、分享、评论、转发等等）也是重要的考虑因素。

时间因素：

很多物品属于一次性消费，用户看过也就是看过了，很少进行二次消费。若热门的数据是一成不变的，或者更换周期不合理的话，用户会感受到乏味无趣，从而造成了用户的流失。所以，不管何种平台都希望热门能够按照合理的周期进行更新，时间成为不可缺少的考虑因素。

2.2热门的优势

热门在互联网市场上扮演着重要的角色，其主要原因如下：

新用户冷启动问题

当用户行为数据量少且用户信息获取不准确（用户冷启动问题）等现状下，热门反而比个性化推荐更加适用。举个列子，若某一个用户刚刚注册某知名APP时，试问一下有多少人会寻着耐心注册性别、年龄、职业等信息呢？又有多少人会注册其真实的信息呢？所以，在绝大多数用户冷启动情况下，选择热门进行推荐比根据用户社会信息进行推荐更加具有保障。

对物品要求小

当物品数量级小或者物品的差异性小的情况下，热门推荐比个性化推荐更加合适。当物品少或者类目聚集时，个性化推荐总是推荐同一类的物品，那么个性化推荐也失去了个性化的特性了，且个性化的计算成本远大于热门计算。

2.3热门的劣势

不可否认，热门也具有很大的弊端，其主要有如下三点：

无法满足个性化需求

当用户存在行为数据时，若一味推荐热门数据，那么个性化变得黯然失色，千人千面的推荐最终演变为千人一面的推荐，个性化也从推荐星球的舞台上褪去。

长尾效应

长尾（The Long Tail）效应，是指那些原来不受到重视的销量小但种类多的产品或服务由于总量巨大，累积起来的总收益超过主流产品的现象。

如下展示的是热门的长尾效应趋势图，图中表示20%的商品占据的市场份额超过了80%的商品占据的市场份额。显然易见，热门越流行，长尾效应越明显。

图：长尾效应趋势图（来自百度百科）

更新周期慢

热门的生产逻辑如下图所示：根据用户行为数据和物品自身的内容，结合某种计算公式（点击率、购买转化率等）计算出每个物品的数值、排序，从而得到热门数据。

从上面的热门逻辑来看，其更新速度主要与用户行为以及物品的数据量有关。在目前数据量如此剧增的互联网环境中，热门的更新速度不得不慢下来了。

pic_004

图-热门的生产逻辑

3.如何用好热门推荐

如何用好热门推荐呢？主要从两个部分出发：首先从热门自身的短板出发，着手于解决热门的弊端；其次，具体阐述个性化推荐中其他武器与热门的结合，从而达到推荐星球的运行理念——统一与个性共存。

3.1解决热门弊端的方法

结合上文提出的热门弊端，此处针对性的提出相应的解决办法。

用户的个性化需求

如何满足用户的个性化需求呢？相信标题和市场已经告诉你答案了，即引入个性化推荐，具体的做法参考下文提到的内容与热门的结合。

巧妙利用长尾效应

如何解决长尾效应呢？解决这个问题的关键是如何将冷门物品曝光，其中常见的做法是通过热门的热度带动冷门物品，电商巨头亚马逊成功运用了该方法。热门产品为《进入空气稀薄地带》，向购买过该书的用户推荐了冷门书籍《触摸巅峰》，通过内容将两个物品关联起来，当其中一个物品进入热门后，带动了另一个冷门物品的畅销，最终创造了《触摸巅峰》的榜单逆行现象。

加快更新周期

如何加快热门更新周期呢？其关键在于缩小计算的数量级。俗话说：一口吃不掉一个馒头，那一般怎么做呢？我们把馒头切成几块，问题迎刃而解。因此面对如此庞大的数据量级，通过对物品和用户人群的划分，从而加快热门的更新周期。

3.2和其他武器的结合

目前市场上赋予智能推荐系统的武器有协同过滤、用户画像、社交关系、物品画像、热门数据以及召回排序模型。面对日益丰富的武器库，很多人感到迷茫，该选择何种武器赢得推荐市场？

pic_005

图推荐星球的武器库

协同过滤：无论是基于用户还是基于物品的协同过滤，其根本思想需要找到人或者物关联性较大的对象，然后基于此作出推荐。若需提高协同过滤的方法的精准性，特殊处理热门物品/人的数据，从而才能保证协同过滤中计算的物品/人是真正意义上的相似。

用户画像：提到个性化推荐，用户画像自动跃入脑海中。很多人对推荐的认知是用户画像越精准，则推荐越精准。对于这点，我们并不否认，但是用户画像提炼出的是什么呢？是该用户侧重于哪一方面，或是类目、或是地域、或是话题等等。根据用户画像提炼出的信息，从热门中取出相匹配的数据，自动化的生成高质量的推荐结果。所以，结合用户画像和热门，使推荐星球能够召回更加有效的推荐结果。

召回排序模型：该武器在市场上扮演着神秘的角色，其杀伤力以及射程范围无法预估。该武器依赖于用户的行为数据，通过一种或几种模型的混合，从而预测用户对物品的评分。

pic_006

图-热门与其他武器的关联性

社交关系：基于社交关系的推荐是给用户赋予其社会属性，若某用户是另一用户的闺蜜或家庭成员，针对某用户的推荐会考虑另一用户的行为数据。看到这里大家不禁疑惑？是不是和基于用户的协同过滤有异曲同工之妙呢？答案确实如此，只不过基于社交关系的用户关系属于强关联，而基于用户的协同过滤中得到的相似用户属于弱关联。因此，社交关系比基于用户协同更直接。

物品画像：物品画像在解决长尾现象以及物品冷启动问题中不可或缺。通过文本处理、内容关联、模型等方式计算两两物品之间的相关性，通过热门巧妙带动冷门物品/冷启动物品，缓解长尾以及物品冷启动问题。

热门数据：热门数据必不可少，热门赋予了推荐星球的共性。热门与推荐星球相结合，具备了热门的时效性、统一性，又具备了推荐的个性化，同时缓解了物品冷启动、长尾效应、新用户冷启动等问题，提高推荐精准，推动了推荐星球的发展。

4.达观智能推荐

在不同的场景下，达观推荐选择其中几种武器进行合理组装，最大化的推荐出符合用户兴趣偏好的物品。达观推荐系统提供了丰富的“武器库”（召回-后处理-排序），接下来我们通过案列中详细阐述在具体的场景下，当面临实际问题时，我们该如何选择武器并使用该武器。

pic_007

图-达观推荐系统丰富热门仓库

4.1资讯推荐行业

众所周知，资讯行业中最考究的是时效性。我们选择综合热点、高时效性召回、物品画像、用户画像、排序策略（时间倒排）、后处理策略（时效性限制）这几种方式。

Step1:根据用户画像、高时效性、物品画像，分别召回符合用户兴趣偏好的高时效性物品、符合用户历史行为的相关物品；为保证推荐的多样性，选择综合热点召回当下热点

Step2:对上述召回结果进行后处理—如不符合时效的item进行过滤处理

Step3:对处理后的召回结果按照某种方式（如时间倒排）排序，生成推荐结果。

4.2电商推荐行业

电商推荐的时效性不是很强，但其在物品的使用周期需要进行特殊处理。在电商推荐中常常遇到的且令人头大的是：若用户短期内购买了洗发水，若和其他场景逻辑相似，推荐系统向该用户推荐不同品牌同功效的洗发水，但是这种推荐令绝大部分客户感到反感。

我们选择高关注量物品召回、关联规则训练出的物品相关、用户画像、后处理（同物品限制）、排序策略这几种武器。具体使用说明如下：

Step1:根据用户有行为的物品和关联规则得到的物品相关召回相关武物品；根据用户画像和高关注量物品召回召回符合用户兴趣偏好的物品

Step2:对上述召回结果进行后处理（同细分类目下一定周期限制），也许类目无法做到如此精确的细分处理，那可以通过文本分析，过滤产品相似性过大的物品

Step3:对处理后的召回结果按照某种召回方式（购买率、关注度等复杂排序），从而生成推荐结果。

4.3总结

在竞争日益激烈的互联网时代，谁更能抓住用户的兴趣，推荐出符合用户兴趣的物品，谁更容易赢得市场。仅仅只依赖热门，将无法满足用户个性化需求；若仅仅依赖个性化（不考虑热门），又可能面临与时代脱节的风险。因此，只有将热门巧妙的融入到推荐星球中，结合用户画像、物品画像等方法召回推荐侯选集；通过后处理方式对侯选集进行过滤处理；通过模型、评估指标等生成有序物品结合，即个性化与共性共存、时效性与场景特殊性共存的推荐结果。

达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

达观愿与业内同行分享助力各企业在大数据浪潮来临之际一起破浪前行