【问题标题】:Using rpart package on large dataset在大型数据集上使用 rpart 包
【发布时间】:2016-07-09 03:40:09
【问题描述】:

我有一个包含近 10000 行和 10 列的大型数据集。我想使用 rpart 包对此数据集进行分类。但是每一列都有很多(超过 50 个)类。所以 R 就挂了。

我有哪些选择来限制数据范围或减少每列中的类数?

【问题讨论】:

    标签: r classification rpart large-data


    【解决方案1】:

    这称为分层抽样,您希望在减少数据集时类的比例保持不变。使用 caret 包中的 createDataPartition。

    table(iris$Species)
    library(caret)
    trainIndex <- createDataPartition(iris$Species, p = .8,list = FALSE,times = 1)
    table(iris[trainIndex,]$Species)
    

    将 iris 替换为您的数据集名称

    【讨论】:

    • 如果对参数有任何疑问,请告诉我。有没有解决你的问题。如果有效,请标记答案
    猜你喜欢
    • 1970-01-01
    • 2020-04-04
    • 2015-07-14
    • 1970-01-01
    • 1970-01-01
    • 2013-02-11
    • 1970-01-01
    • 2016-02-03
    • 2013-12-25
    相关资源
    最近更新 更多