【发布时间】:2019-01-20 16:04:14
【问题描述】:
我想知道如何计算 sklearn 中 LogisticRegressionCV 的最终模型(即决策边界)。所以说我有一些 Xdata 和 ylabels 这样的
Xdata # shape of this is (n_samples,n_features)
ylabels # shape of this is (n_samples,), and it is binary
现在我跑了
from sklearn.linear_model import LogisticRegressionCV
clf = LogisticRegressionCV(Cs=[1.0],cv=5)
clf.fit(Xdata,ylabels)
这只是查看 CV 中的一个正则化参数和 5 个折叠。所以clf.scores_ 将是一个字典,其中一个键的值是一个形状为 (n_folds,1) 的数组。通过这五个折叠,您可以更好地了解模型的性能。
但是,我对您从 clf.coef_ 获得的信息感到困惑(我假设 clf.coef_ 中的参数是 clf.predict 中使用的参数)。我有几个选择,我认为可能是:
-
clf.coef_中的参数来自在所有数据上训练模型 -
clf.coef_中的参数来自最佳得分折叠 -
clf.coef_中的参数以某种方式跨折叠进行平均。
我想这是一个重复的问题,但在我的一生中,我无法在网上、sklearn 文档或 LogisticRegressionCV 的源代码中找到一个直接的答案。我发现的一些相关帖子是:
【问题讨论】:
标签: python machine-learning scikit-learn cross-validation