首页 文章

如何求和相关性,或计算脱节变量的相关性

提问于
浏览
0

我正在尝试计算2个变量数组的相关性,但是数组在中间是脱节的 - 但我试图获得一个相关系数

例;

x:1, 2, [disjointed], 5.1, 5.2, 5.3, 5.4, 5.5, 5.6

y:2, 4, [disjointed], 9.1, 9, 8.9, 8.8, 8.7, 8.6

See the excel file I uploaded: http://www.qfpost.com/file/d?g=1UfQx3cUj

因为中间的不相交,值有些跳跃,当我将整个变量集合在一起时,我获得的相关系数并不真正反映变量之间的关系

我怎样才能计算出一个相关系数?我可以计算两个单独的相关性,但无论如何将两个相关性加在一起?

谢谢先生们

[编辑:格式化并添加了指向excel文件的链接]

2 回答

  • 0

    简短的回答:看相关的衡量标准以外的相关性 .

    如果我正确理解您的问题,您正在考虑数据如下所示的问题:

    #R code
    N=500
    set.seed(10)
    x = rnorm(N)
    y = rnorm(N,10*x)
    plot(x,y)
    abline(reg = lm(y~x))
    #correlation
    cor(x,y)
    [1] 0.9954706
    

    enter image description here

    这些显然是相关的X和Y变量 .

    但是,你的情况看起来更像这样(显然,这是简化以显示一点):

    abs = ifelse(x>0, 10, -10)
    y2 = rnorm(N,abs*x)
    plot(x,y2)
    abline(reg = lm(y2~x))
    cor(x,y2)
    [1] -0.01952952
    

    enter image description here

    相关性是两个变量之间线性关系的函数 . 在顶部图像中,很明显Y严重依赖于X,并且接近1的相关性反映了线性关系 . 然而,在底部图像中,即使Y严重依赖于X,相关系数也几乎为0(并且在非常大的样本中将真正为0) .

    这只是相关性的缺点 - 没有“修复”,你可以将X和Y的相关性加在X = 0之上和之下 . 如果您想要更好的方法来表征数据的相关性,请查看(例如)非线性回归技术 . 更好的是,与您所在机构的统计员合作(或在附近找一个) . 如果没有更多数据,就无法确切地知道您需要什么 .

  • 0

    如果你真的想要一个总结这两组的相关性,你可以通过计算一个元相关

    1)将R和大小转换为Fisher's Z及其标准误差

    https://en.wikipedia.org/wiki/Fisher_transformation

    2)例如,通过元分析将它们整合在一起

    https://cran.r-project.org/web/packages/rmeta/index.html

相关问题