glm摘要没有给出系数值-Java 学习之路

我试图在给定的数据集上应用glm，但 summary(model1) 没有给我正确的输出，它没有给 Estimate Std. Error z value Pr(>|z|) 等系数值，它只是给我 NA 作为单个属性元素的输出 .

TEXT <- c('Learned a new concept today : metamorphic testing.  t.co/0is1IUs3aW','BMC Bioinformatics BioMed Central: Detecting novel ncRNAs by experimental #RNomics is not an easy task... http:/t.co/ui3Unxpx #bing @MyEN','BMC Bioinformatics BioMed Central: small #RNA with a regulatory function as a scientific ... Detecting novel… http:/t.co/wWHOEkR0vc #bing','True or false? link(#Addition, #Classification) http:/t.co/zMJuTFt8iq #Oxytocin','Biologists do have a sense of humor, especially computational bio people http:/t.co/wFZqaaFy')
NAME <- c('QSoft Consulting','Fabrice Leclerc','Sungsam Gong','Frederic','Zach Stednick')
SCREEN_NAME <-c ('QSoftConsulting','rnomics','sunggong','rnomics','jdwasmuth')
FOLLOWERS_COUNT <- c(734,1900,234,266,788)
RETWEET <- c(1,3,5,0,2)
FRIENDS_COUNT <-c(34,532,77,213,422)
STATUSES_COUNT <- c(234,643,899,222,226)
FAVOURITES_COUNT <- c(144,2677,445,930,254)

df <- data.frame(TEXT,NAME,SCREEN_NAME,RETWEET,FRIENDS_COUNT,STATUSES_COUNT,FAVOURITES_COUNT)
mydata<-df
mydata$FAVOURITES_COUNT <- ifelse( mydata$FAVOURITES_COUNT >= 445, 1, 0)  #converting fav_count to binary values

拆分数据

library(caret)
split=0.60
trainIndex <- createDataPartition(mydata$FAVOURITES_COUNT, p=split, list=FALSE)
data_train <- mydata[ trainIndex,]
data_test <- mydata[-trainIndex,]

glm模型

library(e1071)
model1 <- glm(FAVOURITES_COUNT~.,family = binomial, data = data_train)
summary(model1)

我想得到p值进行进一步分析到目前为止我认为我的代码是正确的，我怎样才能得到正确的输出？

2 回答

1

二项分布仅在因变量具有两个结果时才有效 . 当因变量是计数时，您应该考虑泊松分布 . 有关详细信息，请参见此处：http://www.statmethods.net/advstats/glm.html

回复于 2024-04-28T04:33:13+08:00
1
您安装GLM的代码在编程上是正确的 . 但是，有一些问题：
- 如评论中所述，对于每个分类变量，您应该使用 as.factor() 将其作为一个因子 . GLM不知道"string"变量是什么 .
- 正如MorganBall所指出的，如果您的数据确实是计数数据，您可以考虑使用Poisson GLM进行拟合，而不是转换为二进制并使用Logistic回归 .
- 您表示您有13个参数和1000个观察值 . 虽然这看起来像是足够的数据，但请注意，其中一些参数可能只有很少（接近0？）的观测值 . 这是个问题 .
- 此外，您是否确保您的数据没有perfectly separate响应？因为如果有一些参数组合可以完美地分离响应，那么最大似然估计会因为您的估算而获得非常大的标准误差 .
回复于 2024-04-28T04:33:13+08:00

glm摘要没有给出系数值

2 回答

相关问题