【问题标题】:Preparing training data sets准备训练数据集
【发布时间】:2019-09-30 18:28:05
【问题描述】:

在准备训练数据集时,我需要从训练数据集中删除目标变量数据还是保留它可以?那么,下面代码中的X = df[:,:] 应该排除目标变量还是重要?

# Feature to be predicted (y)
y = df['predicted'] #target variable

#Training data
X = df[:,:]

# Perform a 70% train and 30% test data split
X_train, X_test, y_train, y_test = ____(X, y, ____=____)

【问题讨论】:

    标签: python pandas machine-learning scikit-learn training-data


    【解决方案1】:

    你不能把标签留在特征集中,你会泄露现成的答案。

    X = df.drop(columns = 'predicted')
    

    【讨论】:

      【解决方案2】:

      离开或不离开目标取决于您使用的机器学习库。在创建训练数据集时,某些库为您提供了一个选项来指定用于训练的列。对于这些库,您不必从训练数据中删除任何内容。

      Sklearn 没有此选项,因此您必须删除目标功能。

      # Feature to be predicted (y)
      y = df['predicted'] #target variable
      
      #Training data
      X = df.drop("predicted",1)
      # here 1 is the axis which means drop a column
      
      # Perform a 70% train and 30% test data split
      X_train, X_test, y_train, y_test = ____(X, y, ____=____)
      

      【讨论】:

        猜你喜欢
        • 2018-03-29
        • 2016-08-26
        • 1970-01-01
        • 2015-12-16
        • 2021-12-26
        • 2020-04-29
        • 1970-01-01
        • 1970-01-01
        • 2019-11-13
        相关资源
        最近更新 更多