【发布时间】:2016-07-09 03:40:09
【问题描述】:
我有一个包含近 10000 行和 10 列的大型数据集。我想使用 rpart 包对此数据集进行分类。但是每一列都有很多(超过 50 个)类。所以 R 就挂了。
我有哪些选择来限制数据范围或减少每列中的类数?
【问题讨论】:
标签: r classification rpart large-data
我有一个包含近 10000 行和 10 列的大型数据集。我想使用 rpart 包对此数据集进行分类。但是每一列都有很多(超过 50 个)类。所以 R 就挂了。
我有哪些选择来限制数据范围或减少每列中的类数?
【问题讨论】:
标签: r classification rpart large-data
这称为分层抽样,您希望在减少数据集时类的比例保持不变。使用 caret 包中的 createDataPartition。
table(iris$Species)
library(caret)
trainIndex <- createDataPartition(iris$Species, p = .8,list = FALSE,times = 1)
table(iris[trainIndex,]$Species)
将 iris 替换为您的数据集名称
【讨论】: