显性反馈和隐性反馈

推荐系统的用户行为分为显性反馈和隐性反馈，显性反馈数据集可以明确区分正负样本（如评分数据）；隐性反馈数据集只有正样本（用户喜欢什么），没有负样本（用户不喜欢什么）。

隐性反馈数据集上生成负样本的方法：

（1）对于一个用户，用他所有没有过行为的物品作为负样本。

（2）对于一个用户，从他没有过行为的物品中均匀采样出一些物品作为负样本。

（3）对于一个用户，从他没有过行为的物品中采样出一些物品作为负样本，但采样时，保证
每个用户的正负样本数目相当。

（4）对于一个用户，从他没有过行为的物品中采样出一些物品作为负样本，但采样时，偏重
采样不热门的物品。
对于第一种方法，它的明显缺点是负样本太多，正负样本数目相差悬殊，因而计算复杂度很
高，最终结果的精度也很差。对于另外3种方法， Rong Pan在文章中表示第三种好于第二种，而
第二种好于第四种。

对负样本采样时应该遵循以下原则：

（1）对每个用户，要保证正负样本的平衡（数目相似）。

（2）对每个用户采样负样本时，要选取那些很热门，而用户却没有行为的物品。

参考资料

《推荐系统实践》项亮