【问题标题】:Machine Learning- Dividing data into test and train sets机器学习 - 将数据划分为测试集和训练集
【发布时间】:2015-12-21 15:24:56
【问题描述】:

如何将给定的数据集划分为训练集和测试集以及它们的正确标签。

通过 sklearn 库有一个相同的实现:

from sklearn.cross_validation import train_test_split

train, test = train_test_split(df, test_size = 0.2)

其中 df 是原始数据集....例如:字符串列表

问题在于它没有将目标/标签与数据集一起使用。所以我们无法追踪哪个标签属于哪个数据点...

有什么方法可以绑定数据点及其标签,然后将数据集拆分为训练和测试?

【问题讨论】:

  • 你上面的sn-p中的df是什么?
  • df 是原始数据集或语料库

标签: machine-learning scikit-learn


【解决方案1】:

sklearn.cross_validation.train_test_split 本质上采用可变数量的数组,它将拆分

*arrays : 具有相同形状[0] 的数组序列或 scipy.sparse 矩阵

退货
拆分:数组列表,长度=2 * len(arrays) 包含输入数组的训练测试拆分的列表。

所以你可以沿着标签列表添加:

from sklearn import cross_validation

df = ['the', 'quick', 'brown', 'fox']
labels = [0, 1, 0, 0]

>> cross_validation.train_test_split(df, labels, test_size=0.2)
[['quick', 'fox', 'the'], ['brown'], [1, 0, 0], [0]]

【讨论】:

  • 此处返回:拆分:数组列表,长度=2 * len(arrays) 包含输入数组的训练测试拆分的列表。这是什么意思?我怎样才能阅读这些类型的文件?
猜你喜欢
  • 2017-09-30
  • 1970-01-01
  • 2020-02-21
  • 2017-06-25
  • 2016-12-03
  • 2015-03-23
  • 2019-07-03
  • 2020-02-03
  • 2019-04-20
相关资源
最近更新 更多