我有一个相对较大的数据集(8000个条目和600个变量) . 其中,大约424个变量是数字的 . 我正在寻找数据集中任何显着的线性相关性 . 要做到这一点,我认为几百点的样本最好能够感受到它 . 我在R中完成了以下操作以查找相关值,但在删除分类变量后我发现自己陷入困境 .

#Read in data
the_data = read.csv('Example.csv', header= TRUE, na.strings = "^", strip.white = TRUE, skipNul = TRUE)
#Take only numerical data
my_num_data = mydata[, sapply(the_data, is.numeric)]
#Get correlation
cor(my_num_data, use = "p", method = "pearson")

我接近this,但我仍然无法弄清楚如何识别哪些变量是强相关的 . 我的CSV有一个有用的 Headers ,但是当我丢弃所有非数字数据时,我将其删除 .