【发布时间】:2015-07-10 06:57:34
【问题描述】:
我有一个包含 100k 数据字段的大型数据集。当我尝试 str() 或查看完整数据时没有出现故障,但是当我在训练集上运行 rpart 时需要一些时间,大约 3-4 分钟后它会显示以下错误,
错误:无法与 R 会话建立连接
我的脚本如下所示:
# Decision tree
library(rpart)
library(rattle)
library(party)
train_set <- read.table('my_sample_trainset.csv', header=TRUE, sep=',', stringsAsFactors=FALSE)
test_set <- read.table('my_sample_testset.csv', header=TRUE, sep=',', stringsAsFactors=FALSE)
my_trained_tree <- rpart(Route ~ Bus_Id + week_days + time_slot, data=train_set, method="class")
# Error occurs on/after this line
my_prediction <- predict(my_trained_tree, test_set, type = "class")
my_solution <- data.frame(Route = my_prediction)
write.csv(my_solution, file = "solution.csv", row.names = FALSE)
我错过了图书馆吗?还是因为大数据集(6.5MB)而发生这种情况
此外,我在 Mac OS X Yosemite 上使用 rStudio 版本 0.99.447
【问题讨论】: