【发布时间】:2017-12-21 04:42:20
【问题描述】:
尝试在 sci-kit learn 中生成决策树。我有一个 CSV 文件,作为我的 sci-kit 程序的输入。当我打印数据集长度为502时,数据集形状为(502, 1)。只有一个数组。
我如何适应决策树并获得结果,不确定我是否正确执行,下面是我的代码。
import numpy as np
import pandas as pd
from sklearn import tree
from sklearn.cross_validation import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
input_file = "output.csv"
# for tab delimited use:
df = pd.read_csv(input_file, header = 0, delimiter = "\t")
# printing the original column values in a python list
print(df.values)
print("DataSet Length :",len(df))
print("DataSet Shape :",df.shape)
# Assigning values to an array
X=df.values[:,0]
# test train the the data
X_train,X_test=train_test_split(X,test_size=0.3,random_state=100)
# Passing to the Decision Tree Classifier, with entropy criterion
clf_entropy = DecisionTreeClassifier(criterion = "entropy", rando
m_state = 100,max_depth=3, min_samples_leaf=5)
# Fitting the data to the classifier
clf_entropy.fit(X_train)
CSV 文件位于以下链接
https://drive.google.com/file/d/0B3XlF206d5UrVnh6QS1LRW0xT0U/view?usp=sharing
下载并使用excel打开。参考以下 sci-kit 文档供参考。
【问题讨论】:
-
你知道
502,1的形状是什么意思吗?这对你的任务有意义吗(可能不是)? (查看链接似乎有道理;但在这种情况下,线性 regressor 可能看起来更自然;是的,您需要考虑分类与回归,对我来说它看起来像后者) -
如果我是正确的,这意味着 502 行和一列。
-
是的,502 个维度为 1 的样本。再说一遍:分类还是回归? 2. 为什么选择决策树? 3. 究竟是什么问题? Fitted 允许调用 clf_entropy.predict()。
-
@sascha ,实际上这是一个分类问题,让我解释一下整个案例,我有 1000 封垃圾邮件和一封非垃圾邮件,我已经生成了一些关于所有文件的统计信息,并存储了关于每个文件在一个csv文件中,通过scikit学习我想对信息进行分类,你可以查看csv,下载并在excel或文本编辑器中查看。
-
不,不只使用这些数据。没有 0 和 1 类。仅 1 个输入和 1 个输出,或 2 个输入,随您喜欢。所以也许这个文件是你转换后的输入,但是任何类信息都丢失了,嗯......如何学习呢?
标签: python scikit-learn