如何知道 RandomForest 中特定样本的特征及其贡献答案

【问题标题】：How to know the features and their contributions of a specific sample in RandomForest如何知道 RandomForest 中特定样本的特征及其贡献
【发布时间】：2018-07-26 07:30:31
【问题描述】：

如何找到影响特定样本预测的特征及其贡献，例如第 5 行

更新

感谢@FatihAkici

我现在可以应用 TreeInterpreter

from treeinterpreter import treeinterpreter as ti

instances = X_train.loc[[1,2]]
print(rf.predict(instances))
prediction, biases, contributions = ti.predict(rf, instances)

for i in range(len(instances)):
    print ("Instance", i)
    print ("Bias (trainset mean)", biases[i])
    print ("Feature contributions:")
    for c, feature in sorted(zip(contributions[i], 
                                 rf.feature_importances_), 
                             key=lambda x: ~abs(x[0].any())):
        print (feature, np.round(c, 2))
    print ("-"*20 )

print (prediction)
print (biases + np.sum(contributions, axis=1))

我的问题是为什么[ 0.12 -0.12] 有两个似乎是正面和负面的值，而不是那个特征的一个值。这是我的输出

【问题讨论】：

首先，feature_importances_ 是 RandomForestClassifier 的属性，而不是预测数据的属性。所以不适用于y_pred。其次，获取测试数据的特征重要性没有意义。该模型只能在它所看到的数据中找到特征的重要性（经过训练）。三、第二个问题是什么？
@Vivek Kumar，你的第二点是我的问题（我会修改问题以反映你的想法），然后我可以训练整个数据集，然后提取该特定点的特征重要性。我正在制定我的第二个问题
那么您是说您想知道影响特定样本分类的特征吗？
@Victor 每个样本没有一个路径，而是n_estimators 不同的路径 - 每个决策树都有一个路径。据我所知，没有重量。如果这是您想要的，您可以尝试计算每个特征在路径上的分割中使用的频率。（我不确定这是否可以被视为重要性度量。）Sklearn 不公开此类功能，因此您必须自己实现decision_path 功能。
你也可以看看lime

标签： python python-3.x python-2.7 machine-learning scikit-learn

【解决方案1】：

是的，您可以了解影响特定观察预测的特征及其贡献（权重不是正确的术语）。这实际上构成了它如何根据特定观察做出决定的决策路径。你要找的是TreeInterpreter。

第二个问题是：为什么每个变量和实例总是有两个值（比如[0.12 -0.12]代表第一个特征和第一个实例）似乎是正负，而不是该功能的一个价值？

所以我的答案是：这些列表中的每一个（例如[0.12 -0.12]）只代表一个特征对实例属于第 1 类和第 2 类的最终概率的贡献。请记住，特性从不规定实例必须属于哪个类，而是增加或减少实例的最终类概率。所以 0.12 意味着特征 1 将实例 0 属于类 1 的概率增加了 0.12，并将其属于类 2 的概率降低了 0.12。这些值始终是对称的，这意味着无论使实例更有可能属于第 1 类的情况，都会使其不太可能属于第 2 类。

同样，特征 2 将实例 1 成为 1 类的概率降低了 0.05，并将其作为 2 类的概率增加了 0.05。

因此，每个特性对属于类 1 的实例 1 的贡献（增加或减少）：0.12、-0.05、0.22、0.14、0.07、0.01。现在将这些全部加到属于第 1 类的偏差 (0.49854)，您得到 1，即该实例属于第 1 类的最终概率，如模型输出所示。

类似地，将每个列表的所有第二个值相加，并加上属于第 2 类的偏差 (0.50146)，得到 0，即该实例属于第 2 类的最终概率，如模型所示上面的输出。

最后对实例 1 重复完全相同的练习，即在 0.49854 的偏差上加上 -0.03、-0.11、0.06、0、-0.06、-0.04，得到 0.32，即P{instance1 = class1}。将 0.03, 0.11, -0.06, 0, 0.06, 0.04 添加到 0.50146 的偏差上，得到 0.68，即P{instance1 = class2}。因此，这些数字构成了一个完整的贡献轨迹，从一个实例的初始偏差到最终分类概率。

我在 datascience.stackexchange.com 上在概念层面回答了一个非常相似的问题，请随时查看by clicking here。

【讨论】：

Akici 我已经编辑了代码以打印功能名称而不是标题，你知道为什么它打印 2 个值而不是 1 个吗？
@Victor 你已经完美地想通了，恭喜！关于 2 个值，这是非常典型的。我在 Python 和 R 建模期间都遇到过这种情况，它只代表因变量 (Y) 的两个类别。模型的每个特征都会增加或减少分类模型的最终结果（类概率）。第一个值是对第 1 类的特征贡献，其次是对第 2 类的贡献。它们始终是对称的，这意味着无论使观察更有可能属于第 1 类的情况，都会使其不太可能属于第 2 类。
@Victor 抱歉编辑晚了；我添加了关于输出中这两个对称值如何工作的解释。如果有任何不清楚的地方请告诉我，我们会进一步讨论。
@Victor 刚刚加了一句：“特征从不规定实例必须在哪个类中，相反，它们会增加或减少实例的最终类概率。”我猜这应该澄清你的困惑。每个特征只是略微提高或降低类概率。
非常感谢您详细而深入的解释。看了这么多网站和原文章，你的解释我最明白了。