【发布时间】:2015-12-21 15:24:56
【问题描述】:
如何将给定的数据集划分为训练集和测试集以及它们的正确标签。
通过 sklearn 库有一个相同的实现:
from sklearn.cross_validation import train_test_split
train, test = train_test_split(df, test_size = 0.2)
其中 df 是原始数据集....例如:字符串列表
问题在于它没有将目标/标签与数据集一起使用。所以我们无法追踪哪个标签属于哪个数据点...
有什么方法可以绑定数据点及其标签,然后将数据集拆分为训练和测试?
【问题讨论】:
-
你上面的sn-p中的
df是什么? -
df 是原始数据集或语料库
标签: machine-learning scikit-learn