在R中的广泛数据集中查找最高度相关的数值变量-Java 学习之路

我有一个相对较大的数据集（8000个条目和600个变量） . 其中，大约424个变量是数字的 . 我正在寻找数据集中任何显着的线性相关性 . 要做到这一点，我认为几百点的样本最好能够感受到它 . 我在R中完成了以下操作以查找相关值，但在删除分类变量后我发现自己陷入困境 .

#Read in data
the_data = read.csv('Example.csv', header= TRUE, na.strings = "^", strip.white = TRUE, skipNul = TRUE)
#Take only numerical data
my_num_data = mydata[, sapply(the_data, is.numeric)]
#Get correlation
cor(my_num_data, use = "p", method = "pearson")

我接近this，但我仍然无法弄清楚如何识别哪些变量是强相关的 . 我的CSV有一个有用的 Headers ，但是当我丢弃所有非数字数据时，我将其删除 .

在R中的广泛数据集中查找最高度相关的数值变量

相关问题