首页 文章

glm摘要没有给出系数值

提问于
浏览
0

我试图在给定的数据集上应用glm,但 summary(model1) 没有给我正确的输出,它没有给 Estimate Std. Error z value Pr(>|z|) 等系数值,它只是给我 NA 作为单个属性元素的输出 .

TEXT <- c('Learned a new concept today : metamorphic testing.  t.co/0is1IUs3aW','BMC Bioinformatics BioMed Central: Detecting novel ncRNAs by experimental #RNomics is not an easy task... http:/t.co/ui3Unxpx #bing @MyEN','BMC Bioinformatics BioMed Central: small #RNA with a regulatory function as a scientific ... Detecting novel… http:/t.co/wWHOEkR0vc #bing','True or false? link(#Addition, #Classification) http:/t.co/zMJuTFt8iq #Oxytocin','Biologists do have a sense of humor, especially computational bio people http:/t.co/wFZqaaFy')
NAME <- c('QSoft Consulting','Fabrice Leclerc','Sungsam Gong','Frederic','Zach Stednick')
SCREEN_NAME <-c ('QSoftConsulting','rnomics','sunggong','rnomics','jdwasmuth')
FOLLOWERS_COUNT <- c(734,1900,234,266,788)
RETWEET <- c(1,3,5,0,2)
FRIENDS_COUNT <-c(34,532,77,213,422)
STATUSES_COUNT <- c(234,643,899,222,226)
FAVOURITES_COUNT <- c(144,2677,445,930,254)

df <- data.frame(TEXT,NAME,SCREEN_NAME,RETWEET,FRIENDS_COUNT,STATUSES_COUNT,FAVOURITES_COUNT)
mydata<-df
mydata$FAVOURITES_COUNT <- ifelse( mydata$FAVOURITES_COUNT >= 445, 1, 0)  #converting fav_count to binary values

拆分数据

library(caret)
split=0.60
trainIndex <- createDataPartition(mydata$FAVOURITES_COUNT, p=split, list=FALSE)
data_train <- mydata[ trainIndex,]
data_test <- mydata[-trainIndex,]

glm模型

library(e1071)
model1 <- glm(FAVOURITES_COUNT~.,family = binomial, data = data_train)
summary(model1)

我想得到p值进行进一步分析到目前为止我认为我的代码是正确的,我怎样才能得到正确的输出?

2 回答

  • 1

    二项分布仅在因变量具有两个结果时才有效 . 当因变量是计数时,您应该考虑泊松分布 . 有关详细信息,请参见此处:http://www.statmethods.net/advstats/glm.html

  • 1

    您安装GLM的代码在编程上是正确的 . 但是,有一些问题:

    • 如评论中所述,对于每个分类变量,您应该使用 as.factor() 将其作为一个因子 . GLM不知道"string"变量是什么 .

    • 正如MorganBall所指出的,如果您的数据确实是计数数据,您可以考虑使用Poisson GLM进行拟合,而不是转换为二进制并使用Logistic回归 .

    • 您表示您有13个参数和1000个观察值 . 虽然这看起来像是足够的数据,但请注意,其中一些参数可能只有很少(接近0?)的观测值 . 这是个问题 .

    • 此外,您是否确保您的数据没有perfectly separate响应?因为如果有一些参数组合可以完美地分离响应,那么最大似然估计会因为您的估算而获得非常大的标准误差 .

相关问题