移动互联网的兴起让我们能够更加简单和方便地获取信息,但更多的选择也带来更多的困扰——面对这些层出不穷的信息和服务带来的困扰,个性化推荐技术迅速崛起。达观数据在这方面做了很多提升推荐质量、推荐效率和系统可靠性的工作,并为企业客户提供了包括私有化部署、SaaS等灵活的接入方式。目前,达观数据个性化推荐引擎已经服务几百家企业,对改善用户体验、增加用户停留时长和粘性、提高用户转化都有显著的效果。
互联网越发展,越需要个性化推荐
随着互联网时代的到来,新闻资讯行业中,有三大核心特点日渐突出。
一是资讯更新极其频繁且层出不穷,全国各地乃至全球,每时每刻都在产生五花八门、包罗万象的资讯,诸如娱乐八卦、国内国际民生、前沿技术解读、行业动态等等。不仅种类繁多,而且数量极大。日积月累,数据量更是到了令人咋舌的地步。
二是用户群体十分庞大,移动互联网时代的到来,让人们史无前例的感受到了获取信息是是如此的简单快捷。手指一触,便能打开信息的大门。用户浏览新闻资讯时,用户行为也多种多样,包括点击、深度阅读、转发、评论、点赞、不喜欢、收藏等。
三是用户兴趣变化也很剧烈,用户阅读口味随着一天当中时间段的不同、心情的差异,对新闻资讯也有明显的阅读便好。所以在新闻资讯的业务场景中,信息过载和物品长尾的问题尤其严重。
当个人所接受的信息超过了个人所能有效处理的范围,会导致无所适从,这种现象称为“信息过载”;同时,如此多样丰富的信息中,大部分是冷门信息,没有曝光的机会,这就是物品的“长尾问题”。对于处于移动互联网的今天,这两个问题异常突出。在大量的实践中发现,个性化推荐能够有效解决上述两个问题。在新闻资讯行业中,个性化推荐引擎不仅随处可见,而且个性化推荐的内容被放置在非常醒目的流量入口位置。这和新闻资讯的实际业务场景密不可分。
新闻资讯中的个性化推荐是根据用户的历史行为数据进行深层兴趣点挖掘,让每一个用户都感觉到有一个私人的贴身管家在照顾自己,从大量的新闻资讯中找出自己最感兴趣的推荐给他。这样的话,不仅满足了用户本质的信息诉求,改善了用户体验,显著提升了用户粘性和停留时长。同时大量的新闻资讯也有了曝光的机会,找到自己的受众群体,避免了流量的浪费。最终对于企业而言,也最大化了自身利益。
达观数据个性化推荐技术实现
如何在海量数据中挖掘用户的兴趣偏好、如何保证推荐结果的精准性、如何快速准确的响应用户兴趣的变化?这些对于企业都是巨大的挑战。达观数据在这方面做了很多提升推荐质量、推荐效率和系统可靠性的工作,下面结合我们的实践做一些介绍。
在新闻资讯行业中,如何进行精准个性化推荐呢?首先从新闻资讯信息说起。新闻资讯自身有很多丰富的信息,一般包括标题、分类、标签、发布时间、作者、是否原创、字数等信息。同时结合用户历史行为数据,可以生成“动态信息”以评估文章本身的质量或者热门程度。这些动态信息可以是全局的,也可以是细分维度的,比如基于一段时间的用户点击行为得到新闻资讯的点击次数,从高得到低排序得到点击维度上的热门排行榜。当然,如果将用户的各种行为进行加权计算处理,可以得到新闻资讯的全局热门榜单。同时,也可以动态生成每篇资讯的点击数、分享数、收藏数、点赞数等用以生成资讯画像,用于后续的推荐算法中。
快速解决冷启动问题
当一个用户到来时,如果这个用户之前没有任何行为数据,这时的推荐就要面临用户“冷启动”问题。解决方法也有很多,首先可以考虑基于用户的人口统计学信息进行推荐,包括性别、地域、职业、婚否等,比如上海的话推荐一些上海的新闻资讯、男生推荐一些体育资讯、职业是互联网行业的话推荐一些科技资讯等。其次可以引导用户选择自己的兴趣标签和分类,比如对娱乐感兴趣的话可以推荐一些明星八卦。当然还可以在新用户启动时,推荐各种各样的高质量新闻资讯,让用户用自己的手进行投票,然后实时更新推荐结果迎合用户的阅读兴趣。
以往因为技术的原因,为一个新用户建立冷启动模型可能需要好几天,但结合我们前面说的这些方法,我们现在已经可以在几秒内就迅速为新用户建立模型。(下接用户图)
如果用户是一个老用户,也就是用户有历史行为数据,那么还可以结合这些数据挖掘用户的兴趣偏好,形成用户画像。用户画像通过对海量的用户行为数据进行深入的分析和挖掘,从多个维度来描述用户的基础属性、标签及兴趣点等,清晰并且准确地勾勒出用户的轮廓概貌。这些数据帮助应用方更好了解用户行为路径,明确用户流失情况和原因,为应用方的产品功能优化决策提供可靠参考依据。
多维度结合,立体预测用户行为
用户画像中有多种维度衡量用户的兴趣偏好,比如偏好的新闻资讯列表、偏好的类别列表、偏好的标签列表、偏好的新闻作者列表、兴趣相似的用户列表等。
用户偏好生成过程中,还需要考虑两个因素:行为类型和兴趣周期。在新闻资讯阅读过程中,用户行为类型有很多。用户看到了一篇新闻,可能是用户感兴趣的,就点击了,然后看了一点觉得很不错,就沉浸下来进入深度阅读阶段直到看完整篇资讯,最后觉得写得太好了,不仅点赞还收藏了这篇文章。像深度阅读、点赞、收藏等和用户兴趣的正向的行为,生成偏好时应当加强,最后在推荐时要多推荐一些类似文章。像不喜欢、不点击等和用户兴趣反向的行为,生成偏好时应当削弱,推荐时也要尽可能少推荐。
另外一点就是兴趣周期,一般来说分三个层次,分别是长期兴趣、短期兴趣和实时兴趣,对应的时间间隔的不同。一般长期兴趣是取最近3个月或者半年的用户行为数据进行分析挖掘生成,短期兴趣则是最近一周时间间隔内,而实时兴趣则是最近N分钟之内的行为挖掘。长期兴趣主要处理用户一直存在的兴趣偏好,短期兴趣主要是处理用户正在变化的或者正在养成的兴趣,而实时兴趣主要是迎合用户的猎奇心理,当然实时兴趣也会是长期兴趣和短期兴趣的持续。
了解用户的心理之后,还有一些具体的事项也需要注意。比如,在一次推荐结果中,推荐的数量一般是8到10个,除了考虑用户兴趣之外,还需要权衡推荐结果的多样性、时效性等,比如避免推荐同一个作者、类别或者标签下的多篇新闻,新文章要优先推荐等。
机器学习,显著提升推荐效率
简单的生成用户偏好的方法是基于概率统计,也可以基于机器学习中的分类、聚类等生成。比如用户点击了10篇新闻资讯,有7篇是关于科技的,2篇是关于汽车的,1篇是娱乐的,则可以得到用户对科技、汽车、娱乐三个类别的偏好程度分别是0.7、0.2、0.1。
有了用户的偏好和偏好程度数据,就可以“投其所好”,就可以基于内容进行推荐了,主要形式有“含有相同标签的其它资讯”、“同分类的其它资讯”、“相同作者的其它资讯”等。比如用户偏好体育,那就推荐时增加体育类新闻的曝光。如果用户偏好C罗,那就推荐时增加C罗新闻的数量。
个性化推荐中很重要的一种方法是基于相似用户的推荐,相似用户的思想体现的是“物以类聚,人以群分”,基于群体智慧,利用已有大量用户群过去行为数据来预测当前用户最可能感兴趣的东西。具体来说,找到和你兴趣偏好相似的用户,把这部分用户喜欢看的新闻资讯推荐给你。比如小达在推荐系统相关的文章,小达和小观是相似用户,就可以这篇推荐系统相关的文章推荐给小观。相似用户的计算,主要是看用户喜好文章的重合程度。
新闻序号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
小达 | 1 | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 0 |
小观 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 0 |
小数 | 0 | 1 | 0 | 1 | 1 | 0 | 0 | 0 | 1 |
小据 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 |
举个例子,上表中第一行对应的新闻编号,共有9篇新闻资讯。第二行到第五行的第一列对应用户名称,后面各列表示用户对各篇新闻是否喜欢,1表示喜欢,0表示不喜欢。从上表可以看出,小达和小观共同喜欢的新闻有7篇,和小数共同喜欢的有2篇,和小据共同喜欢的有1篇。所以,相对小数和小据,小达和小观的阅读口味更加接近,二者喜欢看的新闻资讯互推的话,推荐准确度就会高很多。当然,在实际业务场景中,计算用户相似度的时候影响的因素非常多。比如过于冷门的资讯会导致相似用户很稀疏,需要过滤或者降权处理;过于热门的资讯会导致很多用户都有相似度,并不能实际反应用户的实际阅读兴趣,也需要过滤或者降权处理。
上述基于领域的相似用户的计算方法,具有很好的解释性。同样也适用于计算新闻资讯的相似度,也就是看各个物品之间被用户喜欢的共同用户数量。除此之外,还有一些方法把新闻资讯和用户映射到相同的隐语义空间中,对应一些无法解释的东西称为隐含因子。对于新闻资讯而言,隐含因子可以用来衡量新闻是正面还是负面的、正常新闻还是三俗的等多种维度。
模型融合,进一步提升推荐效果
综上所述,生成个性化推荐结果的方式有很多种。俗话说“尺有所短、寸有所长”,如果能把每种方式的优点都结合起来,就能得到更好的效果。在算法设计中,这个环节就是“模型融合”,将多个单一推荐算法的结果进行融合。
融合方式有很多,已经有一些完全自动化并且智能的融合机制,比如LR(Logistic Regression),该方法综合用户维度特征(如人口统计学信息、兴趣偏好)、资讯维度特征(如标签、类别、作者)和用户的行为数据(如点击、点赞、收藏)等多种数据,来预测用户对新闻资讯的感兴趣程度,也就是一个介于0到1之间的数值,越接近于1表示表示用户越感兴趣。
模型融合的方式现在已经普遍应用在机器学习的各个分支中,但是不同的融合方式效果有显著的差别。我们达观数据在具体的实践中使用的是独立开发的“双层叠加算法”,这一算法具有较强的普适性,已经在数百家知名企业的业务中得以应用。
相关阅读