我有一个45个变量之间相关性的数据框,并添加了由'varImp'函数给每个变量值的随机森林重要性值(我用这个数据运行了随机森林训练模型 .
我想遍历每一列,无论变量的相关性超过.8(绝对值), remove either that row variable or that column variable, whichever has the lower 'varImp' importance . 我还想从列/行中删除相同的变量(因为它是一个相关矩阵,所有变量都显示在行和列中) .
例如,roll_belt和max_picth_belt的相关性为〜.97,因为与max_picth_belt的3.16相比,roll_belt的值为3.77,我想将max_pitch_belt作为一行和一列删除 .
谢谢你的帮助!
1 回答
我敢肯定必须有一种更直截了当的方式 . 不过,我的代码完成了这项工作 .
假设,我们已将您的数据集加载到名为
df
的对象中(我不包含用于获取数据的代码,因为它不相关) .首先,我将数据本身和用于测试功能重要性的
value
列分开是很方便的 . 名为test.value
的新对象是第46列 .现在我们准备开始了 .
框架 . 我们需要确定要从数据集中删除的行/列数 . 所以我们会:
逐列
确定大于0.8的所有相关的位置
在嵌套循环中逐个比较要素重要性
记录应在对象中删除的行/列号
remove
最后,删除选定的行/列
代码是:
而已 .
UPDATE
对于那些能够提供更好解决方案的人来说,这里有一个易于阅读的数据,cor.remove.RData
要么
如果你喜欢
dput
dput.df.txt
dput.test.value.txt
我有兴趣看到一个更好的方法来解决任务 .