我试图在 MATLAB 中使用pearson相关系数来进行数据中的特征选择 . 我有一个21392x1974表,1974列作为变量/特征,21392行作为观察 . 我查看了corrcoeff()上的Mathworks文档,但大多数示例都是针对小尺寸数据的 . 我很困惑如何将它应用于如此庞大的数据集 . 此外,我不确定Pearson Correlation Coefficient是否可以应用于我的数据的第1974列,该列具有各种字符串类型标签(如Apple,Ball,Cat等, - 总共14种不同类别的标签) . 我的目标是: -

  • 计算第7列与我的数据每列之间的Pearson相关系数 . 因此,第7列将产生完美的相关性(1),因为它与自身相关 . 我的目标是找出所有特征与数据的第7列的相关性 . 我还想在原始数据中显示Pearson Correlation Coefficient> = 0.70的列索引 .

  • 我其次想知道是否有可能找到第1974列(标签/类)之间的皮尔逊相关系数与我的数据的每一列作为我希望确定的第二种情况 . 我查看了各种资源,如http://matlab.izmiran.ru/help/techdoc/ref/corrcoef.htmlhttps://uk.mathworks.com/help/matlab/ref/corrcoef.html,但我真的很困惑如何为我的数据做这件事 . 在这方面的任何帮助将非常感激 . 干杯谢谢!