达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

技术分享|智能推荐中的文本挖掘算法

本文摘自达观数据出版书籍《智能文本处理实战》9.2.3

在推荐系统中,无论是用户还是物品,都有大量非结构化文字信息。这些文字信息经过不同的文本挖掘算法处理后,能够提升对用户或物品特征的表示效果,进而提升推荐系统的整体性能。本文将详细介绍推荐系统中一些常用的文本挖掘算法。

标签提取算法

图1是标签提取算法的流程示意图。对于推荐物品中的文本信息,尤其是资讯中的标题、摘要和正文,利用 NLP 技术获取与物品相关的关键词、分类和 NER,这些信息是对物品的重要表示,可作为物品的属性特征。

图1 标签提取

通过对用户行为的统计分析,基于用户点击 / 收藏的物品以及物品的属性,构建用户的显式表示。例如一个用户浏览了10篇文章,其中8篇文章带有“篮球”标签,那么推荐系统可以将“篮球”作为用户的兴趣标签。又如用户浏览的文章大都是“某甲”发布的,推荐系统也可以将“某甲”作为用户的兴趣标签。

基于内容的推荐

基于内容的推荐是指根据物品的显式语义信息进行推荐,可以分为3部分:根据物品推荐物品、根据用户推荐物品以及根据用户推荐用户。根据物品推荐物品,是指利用物品的内容信息,计算(寻找)与之相关的物品,比如标签相似度高的物品、同一作者发布的物品、同类别下的物品、属于同一地区的物品等。根据用户推荐物品,是指根据用户的兴趣标签为用户推荐相关物品。例如为喜欢篮球的用户推荐篮球相关的其他优质物品,为上海的用户推荐上海地区的热门物品。图2是基于内容推荐的流程图,通过对用户的标签化建模,可以进行相似物品推荐。

图2 基于内容推荐

根据用户推荐用户,是指根据用户的标签,计算与之兴趣相似的用户,比如为喜欢篮球的用户推荐同样喜欢篮球的用户。对相似用户进行聚类,可以增强用户间的交互, 从而提升整个社区的活跃度。基于内容的推荐方法不依赖用户的行为数据,能在很大程度上缓解推荐系统的“冷启动”问题,尤其是当新内容刚上架时,基于内容的推荐算法往往能取得很好的效果。这种方法还有一个重要的优势。因为基于内容推荐直接使用了人类可以理解的语义信息, 所以从结果中可以感受到明显的相关性,可解释性也相对较好。

深度语义模型

深度语义模型(deep structured semantic model,DSSM)是另外一个起源于文本处理 领域并最终在推荐系统中得到广泛应用的模型。

DSSM 由微软开发,利用深度神经网络把文本表示成向量,主要用于文本相似度匹配。模型结构如图3所示。

DSSM 包含两部分,query 网络和 document 网络。这两个网络将用户搜索 query 和文档映射到低维向量空间,并通过余弦相似度表示 query 和文档之间的关联。DSSM 结构非常简单且性能很好,在信息检索、知识问答、图片描述及机器翻译等领域中有较多应用。

图3 DSSM结构

在 DSSM 中,query 网络和 document 网络是两个独立的子网络,和推荐系统的用户 – 物品模型很相似,于是 DSSM 便被移植到推荐系统中。在推荐系统中,通过 user 网络和 item 网络将用户和物品映射为低维稠密向量,并用余弦相似度表示用户对物品的感兴趣程度。

词向量模型

item2vec 源于 word2vec 算法,是文本挖掘技术在推荐领域的一个重要应用。

word2vec 是谷歌推出的一个 NLP 工具,它的特点是能够将句子中的单词转化为数字化向量,并且可以通过向量之间的关系(余弦距离、向量和、向量差等)定量地表示词与词之间的关系。在 word2vec 推出之前,人们更多使用 one-hot 编码来将词转化为向量,但是这样得到的向量太过稀疏,而且向量之间彼此正交,不包含任何语义信息。word2vec 通过一个简单的神经网络,将单词映射到一个稠密的向量空间,并且在这个向量空间中,向量之间的关系可以表示单词之间的部分语义关系。

item2vec 由微软于 2016 年提出。item2vec 的具体处理过程就是将每个物品作为一个“词”,将每个用户的行为序列作为一个“句子”,从而利用 SGNS 方法(word2vec)提取 item 的隐式向量表示(embedding),并通过向量之间的距离来判断 item 的相关度。item2vec 使用了行为中的序列特征,在推荐系统中广泛使用。

达观智能推荐

达观智能推荐集用户画像、用户运营、AB实验为一体的推荐系统,以推荐为核心进行产品开发,用户使用成本低。达观智能推荐平台采用业内首创的“召回+排序+后处理+兜底”四段式推荐流程,提供了数百种内置的召回策略、排序策略、推荐方案,同时支持策略、方案的自定义,满足企业根据业务场景和规则自主配置推荐策略的需求,让企业最大化实现自主可控的配置。实施案例丰富,广泛服务于零售、金融、传媒、政企、互联网等行业的上千个客户,在各行各业都有丰富的积累和实践经验。