准备训练数据集答案

【问题标题】：Preparing training data sets准备训练数据集
【发布时间】：2019-09-30 18:28:05
【问题描述】：

在准备训练数据集时，我需要从训练数据集中删除目标变量数据还是保留它可以？那么，下面代码中的X = df[:,:] 应该排除目标变量还是重要？

# Feature to be predicted (y)
y = df['predicted'] #target variable

#Training data
X = df[:,:]

# Perform a 70% train and 30% test data split
X_train, X_test, y_train, y_test = ____(X, y, ____=____)

【问题讨论】：

标签： python pandas machine-learning scikit-learn training-data

【解决方案1】：

你不能把标签留在特征集中，你会泄露现成的答案。

X = df.drop(columns = 'predicted')

【讨论】：

【解决方案2】：

离开或不离开目标取决于您使用的机器学习库。在创建训练数据集时，某些库为您提供了一个选项来指定用于训练的列。对于这些库，您不必从训练数据中删除任何内容。

Sklearn 没有此选项，因此您必须删除目标功能。

# Feature to be predicted (y)
y = df['predicted'] #target variable

#Training data
X = df.drop("predicted",1)
# here 1 is the axis which means drop a column

# Perform a 70% train and 30% test data split
X_train, X_test, y_train, y_test = ____(X, y, ____=____)

【讨论】：