【问题标题】:An error occurs when calling rpart for a large data set为大型数据集调用 rpart 时出错
【发布时间】:2015-07-10 06:57:34
【问题描述】:

我有一个包含 100k 数据字段的大型数据集。当我尝试 str() 或查看完整数据时没有出现故障,但是当我在训练集上运行 rpart 时需要一些时间,大约 3-4 分钟后它会显示以下错误,

错误:无法与 R 会话建立连接

我的脚本如下所示:

# Decision tree
library(rpart)                      
library(rattle)                                 
library(party)  

train_set <- read.table('my_sample_trainset.csv', header=TRUE, sep=',', stringsAsFactors=FALSE)
test_set <- read.table('my_sample_testset.csv', header=TRUE, sep=',', stringsAsFactors=FALSE)

my_trained_tree <- rpart(Route ~ Bus_Id + week_days + time_slot, data=train_set, method="class")
# Error occurs on/after this line

my_prediction <- predict(my_trained_tree, test_set, type = "class")

my_solution <- data.frame(Route = my_prediction)

write.csv(my_solution, file = "solution.csv", row.names = FALSE)

我错过了图书馆吗?还是因为大数据集(6.5MB)而发生这种情况

此外,我在 Mac OS X Yosemite 上使用 rStudio 版本 0.99.447

【问题讨论】:

    标签: r rpart


    【解决方案1】:

    该消息意味着 R 仍在计算结果。如果您打开 Activity Monitor 并在 CPU 选项卡上按 CPU 使用率排序,您应该会看到 rsession 正在使用 100% 的 CPU。因此,您只需单击该消息上的“确定”并允许 R 继续计算。

    我希望有一个解决方法,但在我们说话的时候,这个问题一直困扰着我!

    【讨论】:

    • “我希望..”是否意味着没有解决方法?
    猜你喜欢
    • 2016-07-09
    • 2022-06-25
    • 2023-01-24
    • 2019-02-07
    • 2015-11-14
    • 2019-11-10
    • 2017-02-18
    • 1970-01-01
    • 2012-07-05
    相关资源
    最近更新 更多