达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

案例分享|推荐系统在金融行业的应用(下)
  • 分类:案例
  • 发表:2024-09-09

本文摘自达观数据出版书籍《推荐系统算法、案例与大模型》

上篇从项目背景介绍、核心功能模块分享了达观数据在金融行业实施推荐系统的经验,下篇将继续从技术实现方案、项目主要成果等方面继续分享达观数据在金融行业实施推荐系统的经验。

技术实现方案
上面讲完了该项目的背景和核心功能模块,下面我们基于推荐系统核心算法和达观提供的工具来给出具体的技术实现方案。

0系统总体架构

系统总体架构上分为平台层、功能层和应用层,接下来简单介绍下平台层中的相关平台的功能。

图1 智能推荐系统总体架构

01大数据服务平台

  依托数据中台的海量数据处理能力,提供推荐应用所需的内外部批量和复杂实时用户数据、物品数据和行为数据加工处理,生成数字画像标签提供给推荐平台分析应用。

02模型服务与管理平台

   支撑个性化推荐应用模型体系训练、验证及批量模型部署,为智能推荐服务平台提供分析建模工具支撑,生成训练好的推荐模型包,供推荐平台部署,提供推荐模型服务。

03企业级事件平台

  提供个性化推荐应用所需的实时事件感知采集,供大数据平台处理,同时接收来自智能推荐服务平台的推荐指令,实时流转到组织经营平台智能分发渠道端进行处理。

04通知平台系统

  提供推荐平台运行报警时系统自动通知邮件、短信功能。

05统一权限管理系统

  行内用户身份统一认证管理。

02系统数据流

整体数据流按照ETL、存储和加工处理进行顺序处理。

图2 智能推荐系统数据流

1基于推荐业务场景,梳理原始输入数据,包括用户数据、物品数据、用户行为和其它相关数据。

2针对源数据存放位置的差异,开发不同的数据加载逻辑,通过API方式进行数据接收并缓存到消息队列里,接着从队列里消费数据进行数据预处理等操作并按照预定逻辑存放到不同的位置。

3基于接收到的多维度数据进行业务逻辑处理。

  • 实时推荐服务,包括推荐API请求的参数解析和校验、场景推荐配置信息获取和解析、执行包括召回排序等推荐逻辑、返回推荐结果等。
  • 离线挖掘分析,包括用户画像和物品画像构建、NLP分析、特征工程、排序模型训练、推荐召回结果生成、数据指标统计等;
  • 近线挖掘分析,包括用户和物品的冷启动处理、近实时行为数据处理、推荐结果的预生成等;实时推荐服务,包括参数解析,基于召回、排序、运营干预、兜底等推荐流程生成推荐结果,接口异常及超时降级处理等;
  • 后台管理系统,包括各种指标数据的统计展示,算法及运营规则的配置,用户、角色及权限的配置管理等;
  • 系统运维,包括日志统一收集,效果指标和服务状态的监控,鉴权控制,资源使用统计等;

03 模型特征加工流程

模型特征涉及到离线特征和实时特征的加工处理及线上预测的工程化处理,主要是依赖大数据技术和Redis相结合。

图3 智能推荐系统模型特征加工流程

智能推荐平台的特征处理模块基于用户、物品及其交付的多样化输入数据,实现离线特征(批处理/微批处理)、实时特征等多维度加工处理,同时支持自定义特征数据的导入,以应用于模型训练、模型实时预测、模型批量预测等流程、服务。

1用户和物品的序列及属性数据存放于Redis,用于实时特征加工处理;除了序列数据,其它数据都在Hive表中存放,用于批处理作业。

2实时特征处理,从Redis拉取原始数据到内存,按照后台系统选定的特征字段及其特征处理方式进行特征加工,并实时返回给推荐服务用于模型预测。

3对于非实时特征,从Hive表拉取原始数据,使用Flink/Spark按照后台系统配置的特征字段进行特征加工,并将结果分别存放到Redis和Hive表中,可以根据时效要求选择天级、小时级、分钟级的方式进行更新;涉及到模型训练所用到的实时特征处理环节,基于用户历史推荐数据中的行为序列数据、推荐序列数据及其它数据,将结果写回到Hive表中。

4模型训练阶段,基于Hive表拉取配置特征进行模型的训练和指标评估等。

5推理服务会从Redis拉取批处理和微批处理的特征以及实时特征,经过特征加工后生成特征向量用于模型预测并生成推荐结果。

04 模型训练预测流程

在推荐平台的建设中,模型的训练和预测功能是整个平台的重中之重。在该项目中,涉及到的Wide&Deep、DeepFM、MMoE等诸多模型的训练和预测的实现,都是基于统一的流程来实现的。

图4 智能推荐系统模型训练预测流程

1足迹数据包括理财、保险等多种产品的曝光、点击、购买等交互数据,事件平台实时采集数据并写到Kafka。

2推荐平台的特征处理模块从Kafka实时消费足迹数据并进行特征处理,并将结果数据分别写到Hive表和Redis。

3用户数据和物品数据的属性及画像特征通过批量方式定时同步到大数据平台推荐租户里,特征处理模型对同步过来的原始数据进行加工,处理后的用户侧和物品侧的特征会同时写到Hive表和Redis。

4推荐平台的管理后台可以配置模型的基础信息、模型参数、样本数据集等信息,保存后自动地在模型服务与管理平台进行注册,并获得模型ID、版本号等信息;同时可以按模型进行编辑、删除、查看日志、查看模型训练状态及指标数据等管理操作,通过API同步到模型服务与管理平台进行管理;通过开启训练、中止训练等操作实现对模型运行的控制。

5模型服务与管理平台所需的模型特征会从大数据平台的Hive表里直接拉取,然后执行模型训练,训练好的模型会保存到大数据平台HDFS指定路径下。

6推荐平台的模型服务模块将最近一段时间有模型状态更新的模型进行更新,加载到内存或从内存中删除,结合Redis中的特征对外提供模型预测服务。

7推荐平台的模型统计模块将模型的上线应用场景、调用次数、效果指标等数据进行统计,并通过API接口批量同步给模型服务与管理平台。

项目主要成果
该项目通过达观数据跟行方一起努力,成功在银行落地,最终让推荐系统成为银行运营的有力工具,该项目为行方带来了极大的业务价值,具体整理如下:图5 智能推荐服务在银行业务中的应用  

1实现精准推荐及营销,通过前期的需求调研、数据对接、系统部署及功能开发、效果优化等各个环节的数月的连续投入,最终帮助该行搭建了一站式推荐平台,涵盖推荐引擎、增长洞察、平台管理等六大功能板块。对接事件平台,自动采集零售客户实时行为特征数据,通过足迹变化动态调整推荐排序,支持在线推荐模型实时预估,为零售客户提供更为精准的推荐预测结果,及时抓住营销时机以提升推荐应用成效。

2推荐链路全监控,接入推荐应用过程数据、埋点数据、交易数据、资源数据等,自动化跟踪推荐应用效果,提供推荐动态可视化看板全程监控管理,通过漏斗分析实现推荐应用系统复盘、归因定位和降级管理,支撑全行各类推荐应用的高效运营。  

3一站式推荐应用配置,接入零售数字画像特征数据,提供推荐规则、模型、策略和实验等系统化、灵活化、可视化配置管理,支持推荐方案快速组装式编排,流水线作业,推荐服务接口一键发布,推荐应用模拟调试,满足零售大规模推荐应用高效定制部署。在场景应用上,对接业务场景数十个,包括Feed流推荐、关联推荐、榜单推荐等形式,未来将会不断扩大应用范围至上百个,同时不同业务场景的点击率、转化率等指标也有不同程度的大幅提升(相比之前的运营方案提升50%+)。

4高并发高可用,提供标准化的推荐服务联机调用接口,依托金融云基础设施和推荐应用降级管理双重机制,支持亿级零售客户推荐应用,推荐响应时间在200ms以内,可以保证数千的并发及数万的TPS,并且支持弹性水平扩容和自动化的运维监控。本文基于达观数据在金融行业实施推荐系统的经验,结合某银行的具体案例,讲解了银行进行数智化转型的背景、需求,结合行方的具体场景和业务目标,最终利用一套完整的企业级推荐系统来解决行方精细化运营的需求,并最终帮助银行实现了业务价值的提升

书籍简介
本书内容为读者呈现B端高频规则和策略,深入算法工程本质,手把手实操项目代码,以及达观数据真实行业案例,也讲述了大模型时代下的推荐系统如何发展,推荐系统未来的发展趋势等。