概率和机器学习答案

【问题标题】：Probability and Machine Learning概率和机器学习
【发布时间】：2013-11-21 07:44:50
【问题描述】：

我正在使用 python 做一些机器学习。

我有一个包含 2000 个条目的 python nd 数组。每个条目都有一些主题的信息，最后有一个布尔值来告诉我他们是否是吸血鬼。

数组中的每个条目如下所示：

[height(cm), weight(kg), stake aversion, garlic aversion, reflectance, shiny, IS_VAMPIRE?]

我的目标是能够根据上面显示的对象数据给出一个新对象是吸血鬼的概率。

我已经使用 sklearn 为我做了一些机器学习：

clf = tree.DecisionTreeRegressor()

clf=clf.fit(X,Y)


print clf.predict(W)

其中 W 是新主题的数据数组。我编写的脚本返回布尔值，但我希望它返回概率。如何修改？

【问题讨论】：

你的吸血鬼数据集是公开的吗，有兴趣的可以看看吗？
我有一个 CSV 文件。

标签： python machine-learning

【解决方案1】：

使用 DecisionTreeClassifier 而不是回归器，并使用 predict_proba 方法。或者，您可以使用逻辑回归（也可在 scikit learn 中使用。）

基本思路是这样的：

clf = tree.DecisionTreeClassifier()

clf=clf.fit(X,Y)


print clf.predict_proba(W)

【讨论】：

您介意详细说明一下吗？也许包括一些sintax？我访问了该链接，但我很难理解。
@DemetriP：查看我编辑的答案。除了我提到的更改之外，代码应该与您现有的代码几乎相同。
我的输出只是[[ 1. 0.]]。我该如何解释？
@DemetriP：我相信这是说它预测第一类的概率为 1，第二类的概率为 0。同样，这在我链接到的文档中。它说那里的类是按数字顺序排列的。由于“False”为 0，“True”为 1，这意味着第一类为 0，即不是吸血鬼。所以它认为那个人绝对不是吸血鬼。

【解决方案2】：

你想使用一个分类器来给你一个概率。此外，您需要确保在测试数组 W 中，数据点不是任何训练数据的复制品。如果它与你的任何训练数据完全匹配，它认为它肯定是吸血鬼或绝对不是吸血鬼，所以会给你 0 或 1。

【讨论】：

【解决方案3】：

如果您使用的是 DecisionTreeRegressor()，那么您可以使用 score 函数来确定预测的决定系数 R^2。

请找到以下文档链接。

http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html#sklearn.tree.DecisionTreeRegressor

您还可以列出交叉验证分数（10 个样本），如下所示

from sklearn.model_selection import cross_val_score


clf = tree.DecisionTreeRegressor()

clf=clf.fit(X,Y)

cross_val_score(clf, X, Y, cv=10)

print clf.predict(W)

这会产生类似于此的输出，

array([ 0.61..., 0.57..., -0.34..., 0.41..., 0.75...,
        0.07..., 0.29..., 0.33..., -1.42..., -1.77...])

【讨论】：

【解决方案4】：

您正在使用回归器，但您可能想要使用分类器。

您还需要使用可以为您提供后验概率的分类器，例如决策树或逻辑回归。其他分类器可能会给您一个分数（某种置信度度量），这也可能满足您的需求。

【讨论】：