我有一个有效的glm模型 . 因为我想添加(脊)正则化,我以为我会切换到glmnet . 出于某种原因,我无法让glmnet工作 . 它似乎总是预测第一类,而不是第二类,这导致低精度和kappa = 0 .
下面是一些重现问题的代码 . 我究竟做错了什么?
它生成的测试数据如下所示:
由于数据不能线性分离,因此添加了两个多项式项A ^ 2和B ^ 2 .
glm模型正确地预测数据(精度= 1且kappa = 1) . 这是它的预测边界:
虽然glmnet模型总是有kappa = 0,无论它尝试什么lambda:
lambda Accuracy Kappa Accuracy SD Kappa SD
0 0.746 0 0.0295 0
1e-04 0.746 0 0.0295 0
0.01 0.746 0 0.0295 0
0.1 0.746 0 0.0295 0
1 0.746 0 0.0295 0
10 0.746 0 0.0295 0
代码重现问题:
library(caret)
# generate test data
set.seed(42)
n <- 500; m <- 100
data <- data.frame(A=runif(n, 98, 102), B=runif(n, 98, 102), Type="foo")
data <- subset(data, sqrt((A-100)^2 + (B-100)^2) > 1.5)
data <- rbind(data, data.frame(A=rnorm(m, 100, 0.25), B=rnorm(m, 100, 0.25), Type="bar"))
# add a few polynomial features to match ellipses
polymap <- function(data) cbind(data, A2=data$A^2, B2=data$B^2)
data <- polymap(data)
plot(x=data$A, y=data$B, pch=21, bg=data$Type, xlab="A", ylab="B")
# train a binomial glm model
model.glm <- train(Type ~ ., data=data, method="glm", family="binomial",
preProcess=c("center", "scale"))
# train a binomial glmnet model with ridge regularization (alpha = 0)
model.glmnet <- train(Type ~ ., data=data, method="glmnet", family="binomial",
preProcess=c("center", "scale"),
tuneGrid=expand.grid(alpha=0, lambda=c(0, 0.0001, 0.01, 0.1, 1, 10)))
print(model.glm) # <- Accuracy = 1, Kappa = 1 - good!
print(model.glmnet) # <- Accuracy = low, Kappa = 0 - bad!
直接调用glmnet(没有插入符号)会导致同样的问题:
x <- as.matrix(subset(data, select=-c(Type)))
y <- data$Type
model.glmnet2 <- cv.glmnet(x=x, y=y, family="binomial", type.measure="class")
preds <- predict(model.glmnet2, x, type="class", s="lambda.min")
# all predictions are class 1...
编辑:由glm找到的缩放数据和决策边界的图:
型号:-37 6317 * A 6059 * B - 6316 * A2 - 6059 * B2
1 回答
您应该在制作预测变量的多项式版本之前对数据进行居中和缩放 . 从数字上讲,事情就更好了:
从这些:
马克斯