我正在尝试计算2个变量数组的相关性,但是数组在中间是脱节的 - 但我试图获得一个相关系数
例;
x:1, 2, [disjointed], 5.1, 5.2, 5.3, 5.4, 5.5, 5.6
y:2, 4, [disjointed], 9.1, 9, 8.9, 8.8, 8.7, 8.6
See the excel file I uploaded: http://www.qfpost.com/file/d?g=1UfQx3cUj
因为中间的不相交,值有些跳跃,当我将整个变量集合在一起时,我获得的相关系数并不真正反映变量之间的关系
我怎样才能计算出一个相关系数?我可以计算两个单独的相关性,但无论如何将两个相关性加在一起?
谢谢先生们
[编辑:格式化并添加了指向excel文件的链接]
2 回答
简短的回答:看相关的衡量标准以外的相关性 .
如果我正确理解您的问题,您正在考虑数据如下所示的问题:
这些显然是相关的X和Y变量 .
但是,你的情况看起来更像这样(显然,这是简化以显示一点):
相关性是两个变量之间线性关系的函数 . 在顶部图像中,很明显Y严重依赖于X,并且接近1的相关性反映了线性关系 . 然而,在底部图像中,即使Y严重依赖于X,相关系数也几乎为0(并且在非常大的样本中将真正为0) .
这只是相关性的缺点 - 没有“修复”,你可以将X和Y的相关性加在X = 0之上和之下 . 如果您想要更好的方法来表征数据的相关性,请查看(例如)非线性回归技术 . 更好的是,与您所在机构的统计员合作(或在附近找一个) . 如果没有更多数据,就无法确切地知道您需要什么 .
如果你真的想要一个总结这两组的相关性,你可以通过计算一个元相关
1)将R和大小转换为Fisher's Z及其标准误差
https://en.wikipedia.org/wiki/Fisher_transformation
2)例如,通过元分析将它们整合在一起
https://cran.r-project.org/web/packages/rmeta/index.html