【发布时间】:2018-04-11 13:18:36
【问题描述】:
我正在使用列 high.medv(是/否)对波士顿数据进行逻辑回归,这表明列 medv 给出的房价中值是否超过 25。
以下是我的逻辑回归代码。
high.medv <- ifelse(Boston$medv>25, "Y", "N") # Applying the desired
`条件到 medv 并将结果存储到一个名为“medv.high”的新变量中
ourBoston <- data.frame (Boston, high.medv)
ourBoston$high.medv <- as.factor(ourBoston$high.medv)
attach(Boston)
# 70% of data <- Train
train2<- subset(ourBoston,sample==TRUE)
# 30% will be Test
test2<- subset(ourBoston, sample==FALSE)
glm.fit <- glm (high.medv ~ lstat,data = train2, family = binomial)
summary(glm.fit)
输出如下:
Deviance Residuals:
[1] 0
Coefficients: (1 not defined because of singularities)
Estimate Std. Error z value Pr(>|z|)
(Intercept) -22.57 48196.14 0 1
lstat NA NA NA NA
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 0.0000e+00 on 0 degrees of freedom
Residual deviance: 3.1675e-10 on 0 degrees of freedom
AIC: 2
Number of Fisher Scoring iterations: 21
我还需要: 现在我需要使用错误分类率作为两种情况的错误度量:
使用 lstat 作为预测器,并且
使用除 high.medv 和 medv 之外的所有预测变量。 但我被困在回归本身
【问题讨论】:
-
为什么输出不正确?
NA通常是缺失值、不正确的格式或建模的副产品。分享您的数据样本,以便我们发现问题 -
波士顿数据在 MASS 包中,@elle - 您的子集中的样本是什么,它似乎不是 ourBoston df 中的变量
-
@FelipeAlvarenga - 数据在波士顿图书馆(MASS)中可用,'NA 是格式错误的错误输出;你能帮我纠正那个错误吗
-
@Mike - 我在这里谈论的变量是我创建的“high.medv”(我的代码的第一四行)。
-
@FelipeAlvarenga 我确实设法摆脱了错误,但我的采样中有一些错误。但是,如果有人仍然可以帮助我处理后面的(错误分类)部分,那就太好了
标签: r