【发布时间】:2015-01-06 09:49:09
【问题描述】:
我想检查在我的数据中哪个变量对结果影响最大,即股票收益率。我的数据如下。
我的代码也附上了。
library(randomForest)
require(data.table)
data = fread("C:/stockcrazy.csv")
PEratio <- data$offeringPE/data$industryPE
data_update <- data.frame(data,PEratio)
train <- data_update[1:47,]
test <- data_update[48:57,]
对于上述子集数据集训练和测试,我不确定是否需要对这些数据进行交叉验证。而且我不知道该怎么做。
data.model <- randomForest(yield ~ offerings + offerprice + PEratio + count + bingo
+ purchase , data=train, importance=TRUE)
par(mfrow = c(1, 1))
varImpPlot(data.model, n.var = 6, main = "Random Forests: Top 6 Important Variables")
importance(data.model)
plot(data.model)
model.pred <- predict(data.model, newdata=test)
model.pred
d <- data.frame(test,model.pred)
我不确定 IncMSE 的结果是好是坏。有人能解释一下吗?
另外,我发现测试数据的预测值并不能很好地预测真实数据。那么我该如何改进呢?
【问题讨论】:
标签: r regression prediction