如何处理推荐系统的新数据？答案

【问题标题】：How to handle new data for recommendation system?如何处理推荐系统的新数据？
【发布时间】：2012-09-10 02:48:22
【问题描述】：

这是一个理论问题。假设我已经实现了两种类型的协同过滤：基于用户的 CF 和基于项目的 CF（形式为Slope One）。

我有一个很好的数据集供这些算法运行。但接下来我想做两件事：

我的算法应该如何处理这些变化（不做很多不必要的工作）？谁能帮我解决这个问题？

【问题讨论】：

【解决方案1】：

对于这两种情况，策略非常相似：

基于用户的 CF：

一号坡：

备注：如果你的“相似度”不对称，则需要更新一行一列。如果它是对称的，则更新一行会自动导致相应列的更新。对于 Slope-One，矩阵是对称的（频率）和倾斜对称的（差异），所以如果您处理，您还需要更新一行或一列，并免费获取另一行（如果您的矩阵存储像这样工作）。

如果您想查看如何实现此功能的示例，请查看 MyMediaLite（免责声明：我是主要作者）：https://github.com/zenogantner/MyMediaLite/blob/master/src/MyMediaLite/RatingPrediction/ItemKNN.cs 有趣的代码在方法 RetrainItem() 中，它是从 AddRatings() 和 UpdateRatings() 调用的。

【讨论】：

【解决方案2】：

一般的东西叫做在线算法。

可以仅使用新数据“在线”更新（同时保持可用），而不是重新训练整个预测器。

如果您在 Google 上搜索“在线坡度一预测器”，您应该能够从文献中找到一些相关的方法。

【讨论】：