我有一个带有二进制目标的数据集(好客户端和坏客户端) . 对于每个客户端,我有一行包含许多变量(~150) .
我希望做到以下几点:
-
Build 不良客户的预测
-
计算客户有多糟糕的得分 .
我想使用随机森林进行预测,并使用逻辑回归得分(坏的概率,得分在0和1之间) .
我有这些问题:
-
随机森林不支持缺失值 . 从技术上讲,我确实知道如何告诉R输入或省略缺失的值(在使用随机软件包时我得到一条错误消息) .
-
在逻辑回归中,如何获得每个主题的得分(成为坏客户的概率) .
-
一般来说,如果我想在R中拟合模型,就像在randomforest包中一样,我需要一个如下语法:
Y~X1+X2+...
,如何告诉R在模型中包含所有变量X1
到X150
?
我的数据如下所示:变量 'Client'
是 0
或 1
,X1-X150自变量,有些是 factor
,有些是 numeric
.
1 回答
randomForest
函数可以设置na.omit
来计算所有缺失值:可以通过预测模型获得分数 .
X1
至X150
可由.
表示: