【问题标题】:How to split a dataset (csv) into training and test data如何将数据集 (csv) 拆分为训练和测试数据
【发布时间】:2019-06-30 20:11:12
【问题描述】:

如果其中没有因变量,如何将数据集 (csv) 拆分为 Python 编程语言中的训练和测试数据

我目前从事的项目是基于机器学习的,数据集不包含任何依赖数据。以下代码仅在数据集包含依赖数据时才有效 -

从 sklearn.model_selection 导入 train_test_split xTrain, xTest, yTrain, yTest = train_test_split(x, y, test_size = 0.2, random_state = 0)

我希望在没有任何 'y' 变量的情况下发生拆分, 有可能吗?

【问题讨论】:

    标签: python-3.x machine-learning


    【解决方案1】:

    有两种“随机”分布。 1) 100% 随机 2)“随机”但“平等”的数据分布(即相同的手段/规范)

    要回答您的问题,我首先建议使用一个包来管理您的数据框(即 Pandas)

    查看链接了解信息: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html

    所以,如果你想获得 DataFrame 的随机 50% 样本并替换:

     df.sample(frac=0.5, replace=True, random_state=1)
    

    【讨论】:

    • 我如何将另外 50% 的数据帧存储在另一个变量中
    猜你喜欢
    • 2019-05-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-06-08
    • 2017-02-20
    • 1970-01-01
    • 2018-11-05
    相关资源
    最近更新 更多