【发布时间】:2017-01-02 15:17:03
【问题描述】:
对random_state 参数感到困惑,不知道为什么决策树训练需要一些随机性。我的想法,(1)它与随机森林有关吗? (2)它与拆分训练测试数据集有关吗?如果是这样,为什么不直接使用训练测试拆分方法(http://scikit-learn.org/stable/modules/generated/sklearn.cross_validation.train_test_split.html)?
http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html
>>> from sklearn.datasets import load_iris
>>> from sklearn.cross_validation import cross_val_score
>>> from sklearn.tree import DecisionTreeClassifier
>>> clf = DecisionTreeClassifier(random_state=0)
>>> iris = load_iris()
>>> cross_val_score(clf, iris.data, iris.target, cv=10)
...
...
array([ 1. , 0.93..., 0.86..., 0.93..., 0.93...,
0.93..., 0.93..., 1. , 0.93..., 1. ])
问候, 林
【问题讨论】:
-
这个问题属于stats.stackexchange.com
-
谢谢@Merlin,为什么? :)
-
SO 是用于编程的,请看Close。离题的原因..
标签: python python-2.7 machine-learning scikit-learn decision-tree