为了构建分类模型,我试图从数据集中选择最重要的功能 .
我的数据包含混合属性(数字和分类) . 我计划在应用Random forest从数据中选择要素后,在R中应用 (importance or varImp) 函数,以提高模型的准确性 .
我的问题是: Can I apply Random forest directly on the data without transformation step or I have to convert categorical attributes into binary (0,1)
我已经在一个数值数据集上应用了具有重要性/ varImp函数的随机森林,该模型工作正常,但我不确定混合数据 .
2 回答
是的,可以在R中包含变量重要性度量和分类/回归的阶乘(偶数有序)变量 .
看到这个可重复的例子:
如果您使用randomForrest包中的randomForrest函数,则不必将每个值的独立分类变量转换为单独的列 .
虽然,您需要确保依赖(预测)变量是一个因子(用于分类)或数字(用于回归) .