【发布时间】:2014-12-22 15:53:00
【问题描述】:
我试图在 python 中重现 R 的 createDataPartition 函数的行为。我有一个带有布尔目标变量的机器学习数据集。我想将我的数据集分成一个训练集(60%)和一个测试集(40%)。
如果我完全随机进行,我的目标变量将不会在两组之间正确分布。
我在 R 中使用:
inTrain <- createDataPartition(y=data$repeater, p=0.6, list=F)
training <- data[inTrain,]
testing <- data[-inTrain,]
如何在 Python 中做同样的事情?
PS:我使用 scikit-learn 作为我的机器学习库和 python pandas。
【问题讨论】:
标签: python r pandas scikit-learn