【问题标题】:What is the significance of scikit-learn GridSearchCV best_score_scikit-learn GridSearchCV best_score_有什么意义
【发布时间】:2017-01-21 06:49:39
【问题描述】:

我可以在How is scikit-learn GridSearchCV best_score_ calculated? 看到这个分数意味着什么的答案。

我正在使用 scikit 学习决策树示例并尝试各种评分参数值。

if __name__ == '__main__':
   df = pd.read_csv('/Users/tcssig/Downloads/ad-dataset/ad.data', header=None)
   explanatory_variable_columns = set(df.columns.values)
   response_variable_column = df[len(df.columns.values)-1]
   # The last column describes the targets
   explanatory_variable_columns.remove(len(df.columns.values)-1)
   y = [1 if e == 'ad.' else 0 for e in response_variable_column]
   X = df[list(explanatory_variable_columns)]
   X.replace(to_replace=' *\?', value=-1, regex=True, inplace=True)
   X_train, X_test, y_train, y_test = train_test_split(X, y)
   pipeline = Pipeline([('clf', DecisionTreeClassifier(criterion='entropy'))])
   parameters = {'clf__max_depth': (150, 155, 160), 'clf__min_samples_split': (1, 2, 3), 'clf__min_samples_leaf': (1, 2, 3)}
   grid_search = GridSearchCV(pipeline, parameters, n_jobs=-1,verbose=1, scoring='accuracy')
   grid_search.fit(X_train, y_train)
   print ('Best score: %0.3f' % grid_search.best_score_)
   best_parameters = grid_search.best_estimator_.get_params()
   for param_name in sorted(parameters.keys()):
        print ('\t%s: %r' % (param_name, best_parameters[param_name]))
   predictions = grid_search.predict(X_test)
   print (classification_report(y_test, predictions))

每次我得到best_score_ 的差异值,范围从0.920.96

这个分数是否应该决定我最终应该使用的 Scoring 参数值。 同样在 scikit learn 网站上,我看到在分类不平衡的情况下不应该使用准确度值。

【问题讨论】:

  • 您需要什么帮助?
  • 我想知道scikit-learn GridSearchCV best_score_的意义

标签: python pandas scikit-learn grid-search


【解决方案1】:

best_score_ 值每次都不同,因为您没有在 DecisionTreeClassifier 中为 random_state 传递一个固定值。您可以执行以下操作,以便每次在任何机器上运行代码时都获得相同的值。

random_seed = 77   ##It can be any value of your choice
pipeline = Pipeline([('clf', DecisionTreeClassifier(criterion='entropy', random_state = random_seed))])

我希望这会有用。

【讨论】:

  • 实际上,我通过不同的评分方法获得了一个 diff best_score_ 值,例如'Accuracy'、'F1'等。所以,想知道我们如何决定在 Scoring 中传递的值范围。我们应该看看 best_score_ 来决定这个吗?
  • 根据您的问题和对此答案的评论,我建议您阅读 GridSearchCV 的 Sk-learn 文档,然后重新阅读您最初链接到的 stackoverflow 帖子。
  • 完全同意尼克·贝克尔的观点。
  • 我确实再次参考了它,但关键是我无法弄清楚 GridSearchCV best_score_ 是否与 Grid Search 交叉验证拟合的质量直接相关。
猜你喜欢
  • 2021-04-13
  • 2014-07-28
  • 2013-04-27
  • 2019-01-15
  • 2014-11-12
  • 2013-10-01
  • 2018-05-14
  • 2014-02-21
  • 2017-12-08
相关资源
最近更新 更多