使用 RMSE 和 nDCG 评估推荐系统的区别？答案

【问题标题】：Difference between using RMSE and nDCG to evaluate Recommender Systems?使用 RMSE 和 nDCG 评估推荐系统的区别？
【发布时间】：2014-06-13 19:46:11
【问题描述】：

谁能给我一个例子，说明它们的工作原理以及它们的错误度量有何不同？谢谢！

【问题讨论】：

我建议您转至datascience.stackexchange.com，并且您可能会提出更具体的问题。您已经可以在 Internet 上找到这两种方法的示例。

标签： machine-learning recommendation-engine

【解决方案1】：

标准化折现累积增益 (NDCG) 根据推荐实体的分级相关性衡量推荐系统的性能。它从 0.0 到 1.0 不等，其中 1.0 代表实体的理想排名。该指标常用于信息检索和评估网络搜索引擎的性能。

均方根误差 (RMSE) 可能是最常用的指标在评估预测评级的准确性时。系统生成预测评级 R^ui 用于用户-项目对 (u,i) 的测试集 T，其实际评级 Rui 是已知的。通常，Rui 是已知的，因为它们隐藏在离线实验中，或者因为它们是通过用户研究或在线实验获得的。它从 0.0 到 1.0 变化，较低的值表示错误较少（因此“更好”）。

您更有可能看到包含 RMSE 的学术论文，您很少看到 NDCG，尽管它确实占有一席之地，尤其是当您检查具有强大信息检索组件的推荐系统时。均方根误差本身并不是特定于应用程序的，因此在评估推荐系统的预测准确性时，往往会包含在大多数学术文献中。

此信息可通过 Google轻松访问，因此请在发布此类问题之前花点时间做一些研究。有很多工作示例，每个相应的 Wiki 页面 NDCG：http://en.wikipedia.org/wiki/Discounted_cumulative_gain#Normalized_DCG 和 RMSE：http://en.wikipedia.org/wiki/Root-mean-square_deviation 上都清楚地详细说明了公式。

【讨论】：