XGBoost/lightGBM 如何评估 ndcg 的排序任务？答案

【问题标题】：How does XGBoost/lightGBM evaluate ndcg for ranking tasks?XGBoost/lightGBM 如何评估 ndcg 的排序任务？
【发布时间】：2017-09-15 20:55:00
【问题描述】：

我目前正在 XGBoost/lightGBM 之间进行测试，以了解它们对项目进行排名的能力。我正在复制此处提供的基准：https://github.com/guolinke/boosting_tree_benchmarks。

我已经能够成功地重现他们工作中提到的基准。我想确保我正确实施了我自己的 ndcg 指标版本，并正确理解了排名问题。

我的问题是：

使用 ndcg 创建测试集的验证时 - 有一个 test.group 文件说前 X 行是第 0 组，等等。为了获得该组的建议，我得到了预测值和已知相关性得分并按每个组的预测值降序对该列表进行排序？
为了从上面创建的列表中获得最终的 ndcg 分数 - 我是否要获得 ndcg 分数并取所有分数的平均值？这和 XGBoost/lightGBM 在评估阶段的评估方法是一样的吗？

这是我在模型完成训练后评估测试集的方法。

对于最后一棵树，当我运行 lightGBM 时，我在验证集上获得了这些值：

[500]   valid_0's ndcg@1: 0.513221  valid_0's ndcg@3: 0.499337  valid_0's ndcg@5: 0.505188  valid_0's ndcg@10: 0.523407

我的最后一步是获取测试集的预测输出并计算预测的 ndcg 值。

这是我计算 ndcg 的 python 代码：

import numpy as np

def dcg_at_k(r, k):
    r = np.asfarray(r)[:k]
    if r.size:
        return np.sum(np.subtract(np.power(2, r), 1) / np.log2(np.arange(2, r.size + 2)))
    return 0.


def ndcg_at_k(r, k):
    idcg = dcg_at_k(sorted(r, reverse=True), k)
    if not idcg:
        return 0.
    return dcg_at_k(r, k) / idcg

在获得特定组 (GROUP-0) 的测试集的预测后，我得到了以下预测：

query_id    predict
0   0   (2.0, -0.221681199441)
1   0   (1.0, 0.109895548348)
2   0   (1.0, 0.0262799346312)
3   0   (0.0, -0.595343431322)
4   0   (0.0, -0.52689043426)
5   0   (0.0, -0.542221350664)
6   0   (1.0, -0.448015576024)
7   0   (1.0, -0.357090949646)
8   0   (0.0, -0.279677741045)
9   0   (0.0, 0.2182200869)

注意

Group-0 实际上有大约 112 行。

然后我按降序对元组列表进行排序，从而提供相关性分数列表：

def get_recommendations(x):

    sorted_list = sorted(list(x), key=lambda i: i[1], reverse=True)
    return [k for k, _ in sorted_list]

relavance = evaluation.groupby('query_id').predict.apply(get_recommendations)

query_id
0    [4.0, 2.0, 2.0, 3.0, 2.0, 2.0, 2.0, 2.0, 2.0, ...
1    [4.0, 2.0, 2.0, 2.0, 1.0, 1.0, 3.0, 2.0, 1.0, ...
2    [2.0, 3.0, 2.0, 2.0, 1.0, 0.0, 2.0, 2.0, 1.0, ...
3    [2.0, 2.0, 2.0, 2.0, 2.0, 2.0, 2.0, 2.0, 2.0, ...
4    [1.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, ...

最后，对于每个查询 id，我计算了相关列表上的 ndcg 分数，然后取为每个查询 id 计算的所有 ndcg 分数的平均值：

relavance.apply(lambda x: ndcg_at_k(x, 10)).mean()

我得到的值为~0.497193。

【问题讨论】：

标签： python machine-learning recommendation-engine xgboost lightgbm

【解决方案1】：

交叉发布我对这个交叉发布问题的交叉验证答案： https://stats.stackexchange.com/questions/303385/how-does-xgboost-lightgbm-evaluate-ndcg-metric-for-ranking/487487#487487

我自己也遇到过这个问题，最后钻到代码里弄明白了。

不同之处在于对丢失 IDCG 的处理。您的代码返回 0，而 LightGBM is treating that case as a 1。

以下代码为我生成了匹配结果：

import numpy as np

def dcg_at_k(r, k):
    r = np.asfarray(r)[:k]
    if r.size:
        return np.sum(np.subtract(np.power(2, r), 1) / np.log2(np.arange(2, r.size + 2)))
    return 0.


def ndcg_at_k(r, k):
    idcg = dcg_at_k(sorted(r, reverse=True), k)
    if not idcg:
        return 1.  # CHANGE THIS
    return dcg_at_k(r, k) / idcg

【讨论】：

【解决方案2】：

我认为问题是由具有相同标签的同一查询中的数据引起的。在这种情况下，XGBoost 和 LightGBM 都会为该查询生成 ndcg 1。

【讨论】：