比较变量并删除一个最低值R [关闭]-Java 学习之路

-4

我有一个45个变量之间相关性的数据框，并添加了由'varImp'函数给每个变量值的随机森林重要性值（我用这个数据运行了随机森林训练模型 .

我想遍历每一列，无论变量的相关性超过.8（绝对值）， remove either that row variable or that column variable, whichever has the lower 'varImp' importance . 我还想从列/行中删除相同的变量（因为它是一个相关矩阵，所有变量都显示在行和列中） .

例如，roll_belt和max_picth_belt的相关性为〜.97，因为与max_picth_belt的3.16相比，roll_belt的值为3.77，我想将max_pitch_belt作为一行和一列删除 .

enter image description here

谢谢你的帮助！

1 回答

0
我敢肯定必须有一种更直截了当的方式 . 不过，我的代码完成了这项工作 .

假设，我们已将您的数据集加载到名为 df 的对象中（我不包含用于获取数据的代码，因为它不相关） .

首先，我将数据本身和用于测试功能重要性的 value 列分开是很方便的 . 名为 test.value 的新对象是第46列 .
```
test.value <- df$value
df <- df[,-ncol(df)] # remove the last column from the dataset
```
现在我们准备开始了 .

框架 . 我们需要确定要从数据集中删除的行/列数 . 所以我们会：
- 逐列
- 确定大于0.8的所有相关的位置
- 在嵌套循环中逐个比较要素重要性
- 记录应在对象中删除的行/列号 remove
- 最后，删除选定的行/列
代码是：
```
remove <- c() # a vector to store features to be removed
for(i in 1:ncol(df)){
        coli <- df[,i] # pick up i-th column
        highcori <- coli>.8 & coli!=1 # logical vector of cors > 0.8

        # go further only if there are cors > 0.8
        if(sum(highcori,na.rm = T)>0){

        posi <- which(highcori) # identify positions of cors > 0.8

        # compare feature importance one by one
        for(k in 1:length(posi)){
                remi <- ifelse(test.value[i]>test.value[posi[k]],posi[k],i)
                remove <- c(remove,remi) # store the less valued feature 
                }
        }

}

remove <- sort(unique(remove)) # keep only unique entries

df.clean <- df[-remove,-remove] # finally, clean the dataset
```
而已 .

UPDATE
对于那些能够提供更好解决方案的人来说，这里有一个易于阅读的数据，cor.remove.RData
要么
如果你喜欢 dput
dput.df.txt
dput.test.value.txt

我有兴趣看到一个更好的方法来解决任务 .
回复于 2024-04-29T20:32:22+08:00

比较变量并删除一个最低值R [关闭]

1 回答

相关问题