【发布时间】:2017-09-18 19:54:41
【问题描述】:
我有一个具有唯一标识符和其他特征的数据集。看起来是这样的
ID LenA TypeA LenB TypeB Diff Score Response 123-456 51 M 101 L 50 0.2 0 234-567 46 S 49 S 3 0.9 1 345-678 87 M 70 M 17 0.7 0
我将其分为训练数据和测试数据。我正在尝试将测试数据从训练数据训练的分类器中分为两类。我想要训练和测试数据集中的标识符,以便我可以将预测映射回 ID。
有没有办法可以将标识符列分配为 ID 或非预测变量,例如我们可以在 Azure ML Studio 或 SAS 中做吗?
我正在使用来自 Scikit-Learn 的 DecisionTreeClassifier。这是我的分类器代码。
from sklearn import tree
clf = tree.DecisionTreeClassifier()
clf = clf.fit(traindata, trainlabels)
如果我只是将 ID 包含在 traindata 中,代码会引发错误:
ValueError: invalid literal for float(): 123-456
【问题讨论】:
-
你是如何进行训练/测试拆分的?
-
@Grr .. 现在,我只是将其分成两半并将 CSV 分别加载为训练数据和测试数据。
标签: python scikit-learn classification decision-tree valueerror