首页 文章

用R分类[关闭]

提问于
浏览
0

我有一个带有二进制目标的数据集(好客户端和坏客户端) . 对于每个客户端,我有一行包含许多变量(~150) .

我希望做到以下几点:

  • Build 不良客户的预测

  • 计算客户有多糟糕的得分 .

我想使用随机森林进行预测,并使用逻辑回归得分(坏的概率,得分在0和1之间) .

我有这些问题:

  • 随机森林不支持缺失值 . 从技术上讲,我确实知道如何告诉R输入或省略缺失的值(在使用随机软件包时我得到一条错误消息) .

  • 在逻辑回归中,如何获得每个主题的得分(成为坏客户的概率) .

  • 一般来说,如果我想在R中拟合模型,就像在randomforest包中一样,我需要一个如下语法: Y~X1+X2+... ,如何告诉R在模型中包含所有变量 X1X150

我的数据如下所示:变量 'Client'01 ,X1-X150自变量,有些是 factor ,有些是 numeric .

1 回答

  • 2
    • randomForest 函数可以设置 na.omit 来计算所有缺失值:
    model1 = randomForest(Species ~ . , data=iris, na.action=na.omit)
    
    • 可以通过预测模型获得分数 .

    • X1X150 可由 . 表示:

    glm.client = glm(Client ~ . , family=gaussian, data=training_data)
    score.client = predict(glm.client, testing_data)
    

相关问题