解释R中的quantile（）函数-Java 学习之路

我整天被R分位数函数迷惑了 .

我有一个关于分位数如何工作的直观概念，以及M.S.在统计数据，但男孩哦，男孩，它的文档让我感到困惑 .

来自文档：

Q [i]（p）=（1 - gamma）x [j] gamma x [j 1]，

我到目前为止还在用它 . 对于类型i分位数，它是x [j]和x [j 1]之间的插值，基于一些神秘的常数伽玛

其中1 <= i <= 9，（jm）/ n <= p <（jm 1）/ n，x [j]是第j阶统计量，n是样本量，m是由样本分位数类型 . 这里γ取决于g = np m-j的小数部分 .

那么，如何计算j？ M＆

对于连续样本分位数类型（4到9），样本分位数可以通过k阶统计量与p（k）之间的线性插值获得：p（k）=（k - alpha）/（n - alpha - beta 1），其中α和β是由类型确定的常数 . 此外，m =αp（1-α-β），γ= g .

现在我真的迷路了 . p，之前是一个常数，现在显然是一个函数 .

所以对于Type 7分位数，默认...

类型7 p（k）=（k - 1）/（n - 1） . 在这种情况下，p（k）=模式[F（x [k]）] . 这是由S.使用的 .

有人想帮帮我吗？特别是我对p是一个函数和一个常数的符号感到困惑，它是什么，现在为某个特定的p计算j .

我希望根据这里的答案，我们可以提交一些修改后的文档，更好地解释这里发生了什么 .

quantile.R source code或输入：quantile.default

2 回答

5

当你给它一个向量时，有各种计算分位数的方法，并且没有已知的CDF .

考虑当您的观察结果不完全落在分位数上时该怎么做的问题 .

“类型”只是决定如何做到这一点 . 因此，方法说，“在第k阶统计量和p（k）之间使用线性插值” .

那么，什么是p（k）？一个人说，“好吧，我喜欢用k / n” . 另一个人说，“我喜欢使用（k-1）/（n-1）”等 . 这些方法中的每一种都有不同的属性，更适合一个或另一个问题 .

\ alpha和\ beta只是参数化函数p的方法 . 在一种情况下，它们是1和1.在另一种情况下，它们是3/8和-1/4 . 我不认为p在文档中是永恒的 . 他们并不总是明确地显示依赖关系 .

当你输入像1：5和1：6这样的向量时，看看不同类型会发生什么 .

（另请注意，即使您的观察结果完全落在分位数上，某些类型仍会使用线性插值） .

回复于 2024-04-29T10:13:10+08:00
54

你可以理解的是很困惑 . 那份文件很糟糕 . 我不得不回到它的基础上（Hyndman，R.J .; Fan，Y . （1996年11月） . "Sample Quantiles in Statistical Packages" . 美国统计学家50（4）：361-365 . doi:10.2307/2684934）以获得理解 . 让我们从第一个问题开始吧 .

其中1 <= i <= 9，（jm）/ n <= p <（jm 1）/ n，x [j]是第j阶统计量，n是样本量，m是由样本分位数类型 . 这里γ取决于g = np m-j的小数部分 .

第一部分直接来自论文，但文档编写者省略的是 j = int(pn+m) . 这意味着 Q[i](p) 仅取决于最接近（排序）观察的分数的两个顺序统计 . （对于像我这样不熟悉这个术语的人来说，一系列观察的"order statistics"是排序系列 . ）

而且，最后一句话是错的 . 它应该读

此处γ取决于np m的小数部分，g = np m-j

至于 m 这很简单 . m 取决于选择的9种算法中的哪一种 . 所以就像 Q[i] 是分位数函数一样， m 应该被认为是 m[i] . 对于算法1和2， m 为0，对于3， m 为-1/2，对于其他算法，则在下一部分中 .

对于连续样本分位数类型（4到9），样本分位数可以通过k阶统计量与p（k）之间的线性插值获得：p（k）=（k - alpha）/（n - alpha - beta 1），其中α和β是由类型确定的常数 . 此外，m =αp（1-α-β），γ= g .

这真令人困惑 . 文档中所谓的 p(k) 与之前的 p 不同 . p(k) 是plotting position . 在论文中，作者将其写为 p k，这有助于 . 特别是因为在 m 的表达式中， p 是原始 p ，而 m = alpha + p * (1 - alpha - beta) . 从概念上讲，对于算法4-9，插值点（ p k， x[k] ）以获得解（ p ，_ Q[i](p) ） . 每种算法仅在 p k的算法中有所不同 .

至于最后一点，R只是陈述S使用的内容 .

原始论文给出了6个“样本分位数”的理想属性列表，并列出了对＃8的偏好，它满足所有这些 . ＃5满足所有这些，但他们不喜欢它的其他理由（它是更多的现象学而非源于原则） . ＃2是像我这样的非统计极客会考虑分位数，并且是维基百科中描述的内容 .

顺便说一下，为了回应dreeves answer，Mathematica做了很多不同的事情 . 我想我理解了映射 . 虽然Mathematica 's is easier to understand, (a) it'更容易用无意义的参数射击自己的脚，并且（b）它可以_1873322的算法＃2 . （这里是Mathworld's Quantile page，其中指出Mathematica不能做＃2，但给出了一个更简单的根据四个参数推广所有其他算法 . ）

回复于 2024-04-29T10:13:10+08:00

解释R中的quantile（）函数

2 回答

相关问题