首页 文章

在ggplot2中,boxplot行的结尾代表什么?

提问于
浏览
41

我无法找到箱线图的线 endpoints 代表的描述 .

例如,这里是线条结束的上方和下方的点值 .
enter image description here

(我意识到盒子的顶部和底部分别是第25和第75百分位,中心线是第50个) . 我假设,因为线上方和下方有点,它们不代表最大/最小值 .

3 回答

  • 2

    箱图末尾的“点”代表异常值 . 确定点是否是异常值有许多不同的规则,但R和ggplot使用的方法是“1.5规则” . 如果数据点是:

    • 小于Q1 - 1.5 * IQR

    • 大于Q3 1.5 * IQR

    然后,这一点被归类为“异常值” . 胡须定义为:

    上晶须=最小(最大(x),Q_3 1.5 * IQR)

    较低的晶须=最大(min(x),Q_1 - 1.5 * IQR)

    其中IQR = Q_3 - Q_1,方框长度 . 因此,上晶须位于最大x值和Q_3 1.5 IQR中的较小者,而较低晶须位于最小x值和Q_1-1.5 IQR中的较大者 .

    Additional information

    • 有关替代异常值规则,请参阅wikipedia boxplot页面 .

    • 实际上有多种计算分位数的方法 . 看看`?quantile对九种不同方法的描述 .

    Example

    请考虑以下示例

    > set.seed(1)
    > x = rlnorm(20, 1/2)#skewed data
    > par(mfrow=c(1,3))
    > boxplot(x, range=1.7, main="range=1.7")
    > boxplot(x, range=1.5, main="range=1.5")#default
    > boxplot(x, range=0, main="range=0")#The same as range="Very big number"
    

    这给出了以下图:
    enter image description here

    当我们将范围从1.7减小到1.5时,我们减少了晶须的长度 . 但是, range=0 是一个特例 - 它相当于"range=infinity"

  • 56

    我认为ggplot使用标准默认值,与boxplot相同:“胡须延伸到最极端的数据点,不超过盒子长度的1.5倍”

    见:boxplot.stats

  • 13

    P1IMSA Tutorial 8 - Understanding Box and Whisker Plots视频提供了(Tukey)盒子和胡须图的可视逐步说明 .

    在4分23秒时,我解释了晶须末端的含义及其与1.5 * IQR的关系 .

    虽然视频中显示的图表是使用D3.js而不是R来渲染的,但其解释与所提到的箱图的R实现相吻合 .

相关问题