推荐系统的用户行为分为显性反馈和隐性反馈 ,显性反馈数据集可以明确区分正负样本(如评分数据);隐性反馈数据集只有正样本(用户喜欢什么),没有负样本(用户不喜欢什么)。

隐性反馈数据集上生成负样本的方法:

(1)对于一个用户,用他所有没有过行为的物品作为负样本。

(2)对于一个用户,从他没有过行为的物品中均匀采样出一些物品作为负样本。

(3)对于一个用户,从他没有过行为的物品中采样出一些物品作为负样本,但采样时,保证
每个用户的正负样本数目相当。

(4)对于一个用户,从他没有过行为的物品中采样出一些物品作为负样本,但采样时,偏重
采样不热门的物品。
对于第一种方法,它的明显缺点是负样本太多,正负样本数目相差悬殊,因而计算复杂度很
高,最终结果的精度也很差。对于另外3种方法, Rong Pan在文章中表示第三种好于第二种,而
第二种好于第四种。

 

对负样本采样时应该遵循以下原则

(1)对每个用户,要保证正负样本的平衡(数目相似)。

(2)对每个用户采样负样本时,要选取那些很热门,而用户却没有行为的物品。

 

参考资料

《推荐系统实践》项亮

 

相关文章:

  • 2022-12-23
  • 2021-08-11
  • 2022-12-23
  • 2022-02-15
  • 2021-03-31
  • 2021-07-19
  • 2021-09-30
猜你喜欢
  • 2022-12-23
  • 2021-11-30
  • 2021-09-18
  • 2021-12-19
  • 2022-01-02
  • 2021-08-20
  • 2021-10-31
相关资源
相似解决方案