我是R.的新人
我有一个大型数据集,其中包含许多数字和非数字列 .
我试图找出哪些列高度相关,这种相关性是否有意义 .
首先,我想找出数值和分类值之间的相关性 . 它应该彼此分开 . 我该怎么做才能找出相关性?
以及如何确定数据集中的错误或异常数据?
这只是一个示例数据集;
> df1 <- LungCapData22
> sapply(df1,class)
LungCap Age Height Smoke Gender Caesarean
"numeric" "integer" "numeric" "factor" "factor" "factor"
LungCap Age Height Smoke Gender Caesarean
1 6.475 6 62.1 no male no
2 10.125 18 74.7 yes female no
3 9.550 16 69.7 no female yes
4 11.125 14 71.0 no male no