【发布时间】:2021-08-04 10:33:27
【问题描述】:
我有一个包含 9 个特征的数据集,从 x1 到 x9。目标变量是Target(我有一个分类问题)。代码:
# Splitting the dataset into the Training set and Test set
# install.packages('caTools')
library(caTools)
set.seed(123)
split = sample.split(dataset$Target, SplitRatio = 0.75)
training_set = subset(dataset, split == TRUE)
test_set = subset(dataset, split == FALSE)
training_set[-c(2,5)] = scale(training_set[-c(2,5)])
test_set[-c(2,5)] = scale(test_set[-c(2,5)])
# Fitting Decision Tree Classification to the Training set
# install.packages('rpart')
library(rpart)
classifier = rpart(formula = Target ~ .,
data = training_set)
# Predicting the Test set results
y_pred = predict(classifier, newdata = test_set[-2], type = 'class')
# Making the Confusion Matrix
cm = table(test_set[, 2], y_pred)
plot(classifier, uniform=TRUE,margin=0.2)
text(classifier)
产生:
无论如何,我看到了 7 个按重要性排序的变量。第一个问题是:为什么只有 7 个(他们是 9 个)?
summary(classifier)
Variable importance
x7 x6 x4 x1 x3 x2 x5
27 18 17 14 11 9 4
此外(这是第二个问题)x3 在情节中丢失。为什么?
数据集太大,我想我不能放在这里,但我想知道你是否发生过类似的事情,你是否找到了任何可能的解释。
谢谢!
【问题讨论】:
-
如果没有更多关于
dataset结构的详细信息,将很难给出具体答案:因子、连续变量、...
标签: r decision-tree rpart