首页 文章

解释R中的quantile()函数

提问于
浏览
60

我整天被R分位数函数迷惑了 .

我有一个关于分位数如何工作的直观概念,以及M.S.在统计数据,但男孩哦,男孩,它的文档让我感到困惑 .

来自文档:

Q [i](p)=(1 - gamma)x [j] gamma x [j 1],

我到目前为止还在用它 . 对于类型i分位数,它是x [j]和x [j 1]之间的插值,基于一些神秘的常数伽玛

其中1 <= i <= 9,(jm)/ n <= p <(jm 1)/ n,x [j]是第j阶统计量,n是样本量,m是由样本分位数类型 . 这里γ取决于g = np m-j的小数部分 .

那么,如何计算j? M&

对于连续样本分位数类型(4到9),样本分位数可以通过k阶统计量与p(k)之间的线性插值获得:p(k)=(k - alpha)/(n - alpha - beta 1),其中α和β是由类型确定的常数 . 此外,m =αp(1-α-β),γ= g .

现在我真的迷路了 . p,之前是一个常数,现在显然是一个函数 .

所以对于Type 7分位数,默认...

类型7 p(k)=(k - 1)/(n - 1) . 在这种情况下,p(k)=模式[F(x [k])] . 这是由S.使用的 .

有人想帮帮我吗?特别是我对p是一个函数和一个常数的符号感到困惑,它是什么,现在为某个特定的p计算j .

我希望根据这里的答案,我们可以提交一些修改后的文档,更好地解释这里发生了什么 .

quantile.R source code或输入:quantile.default

2 回答

  • 5

    当你给它一个向量时,有各种计算分位数的方法,并且没有已知的CDF .

    考虑当您的观察结果不完全落在分位数上时该怎么做的问题 .

    “类型”只是决定如何做到这一点 . 因此,方法说,“在第k阶统计量和p(k)之间使用线性插值” .

    那么,什么是p(k)?一个人说,“好吧,我喜欢用k / n” . 另一个人说,“我喜欢使用(k-1)/(n-1)”等 . 这些方法中的每一种都有不同的属性,更适合一个或另一个问题 .

    \ alpha和\ beta只是参数化函数p的方法 . 在一种情况下,它们是1和1.在另一种情况下,它们是3/8和-1/4 . 我不认为p在文档中是永恒的 . 他们并不总是明确地显示依赖关系 .

    当你输入像1:5和1:6这样的向量时,看看不同类型会发生什么 .

    (另请注意,即使您的观察结果完全落在分位数上,某些类型仍会使用线性插值) .

  • 54

    你可以理解的是很困惑 . 那份文件很糟糕 . 我不得不回到它的基础上(Hyndman,R.J .; Fan,Y . (1996年11月) . "Sample Quantiles in Statistical Packages" . 美国统计学家50(4):361-365 . doi:10.2307/2684934)以获得理解 . 让我们从第一个问题开始吧 .

    其中1 <= i <= 9,(jm)/ n <= p <(jm 1)/ n,x [j]是第j阶统计量,n是样本量,m是由样本分位数类型 . 这里γ取决于g = np m-j的小数部分 .

    第一部分直接来自论文,但文档编写者省略的是 j = int(pn+m) . 这意味着 Q[i](p) 仅取决于最接近(排序)观察的分数的两个顺序统计 . (对于像我这样不熟悉这个术语的人来说,一系列观察的"order statistics"是排序系列 . )

    而且,最后一句话是错的 . 它应该读

    此处γ取决于np m的小数部分,g = np m-j

    至于 m 这很简单 . m 取决于选择的9种算法中的哪一种 . 所以就像 Q[i] 是分位数函数一样, m 应该被认为是 m[i] . 对于算法1和2, m 为0,对于3, m 为-1/2,对于其他算法,则在下一部分中 .

    对于连续样本分位数类型(4到9),样本分位数可以通过k阶统计量与p(k)之间的线性插值获得:p(k)=(k - alpha)/(n - alpha - beta 1),其中α和β是由类型确定的常数 . 此外,m =αp(1-α-β),γ= g .

    这真令人困惑 . 文档中所谓的 p(k) 与之前的 p 不同 . p(k)plotting position . 在论文中,作者将其写为 p k,这有助于 . 特别是因为在 m 的表达式中, p 是原始 p ,而 m = alpha + p * (1 - alpha - beta) . 从概念上讲,对于算法4-9,插值点( p k, x[k] )以获得解( p ,_ Q[i](p) ) . 每种算法仅在 p k的算法中有所不同 .

    至于最后一点,R只是陈述S使用的内容 .

    原始论文给出了6个“样本分位数”的理想属性列表,并列出了对#8的偏好,它满足所有这些 . #5满足所有这些,但他们不喜欢它的其他理由(它是更多的现象学而非源于原则) . #2是像我这样的非统计极客会考虑分位数,并且是维基百科中描述的内容 .

    顺便说一下,为了回应dreeves answer,Mathematica做了很多不同的事情 . 我想我理解了映射 . 虽然Mathematica 's is easier to understand, (a) it'更容易用无意义的参数射击自己的脚,并且(b)它可以_1873322的算法#2 . (这里是Mathworld's Quantile page,其中指出Mathematica不能做#2,但给出了一个更简单的根据四个参数推广所有其他算法 . )

相关问题