1.缘起
糖豆作为国内最大的广场舞平台,全网的MAU已经超过4000万,每月PGC和UCG生产的视频个数已经超过15万个,每月用户观看的视频也超过100万个。然而之前糖豆APP首页主要还是依赖内容编辑手工推荐来发现内容,每天的推荐量也是几十个而已。明显可见千人一面的内容分发效率比较低下,继而我们于2016年12月初,启动了糖豆推荐系统的设计以及开发,目前截止到2017年1月初,已经完成第一期推荐系统的开发与评估。推荐项目立项伊始,我撰写了一篇整体架构与设计,本文和架构一文在部分内容有所重复,本文主要专注阐述推荐系统的开发、实现以及评估的细节。
推荐系统的目的也可以简单总结成为以下两点:
- 根据用户个人兴趣分发内容,为生产者和消费者打造更加合理的流量分发体系。
- 提高用户观看时长,从而进一步到达提升产品留存。
可以看到核心评估目标是用户的观看时长,相对直接易理解。当然评估过程,我们遵循数据科学的评估体系,衡量了包括多种优化目标(RMSE,P@K,AUC/ROC,覆盖率等等)的指标。同时还根据AB测试,评估了整体推荐模块的CTR,播放时长等多项业务统计指标。
2.架构
相信自从Netfix公布他们的推荐架构之后[1],后续的推荐系统基本都会按照在线(online),近线(near line),离线(off line)三个部分来构建。虽然划分成三个模块,本质是推荐算法迭代时间窗口问题,根据用户行为数据,构建一个持续进化的系统。
糖豆推荐系统架构基本也是按照三个模块来构建。限于人力和时间,第一期主要实现了离线部分。架构图如下: