我无法找到箱线图的线 endpoints 代表的描述 .
例如,这里是线条结束的上方和下方的点值 .
(我意识到盒子的顶部和底部分别是第25和第75百分位,中心线是第50个) . 我假设,因为线上方和下方有点,它们不代表最大/最小值 .
箱图末尾的“点”代表异常值 . 确定点是否是异常值有许多不同的规则,但R和ggplot使用的方法是“1.5规则” . 如果数据点是:
小于Q1 - 1.5 * IQR
大于Q3 1.5 * IQR
然后,这一点被归类为“异常值” . 胡须定义为:
上晶须=最小(最大(x),Q_3 1.5 * IQR)
较低的晶须=最大(min(x),Q_1 - 1.5 * IQR)
其中IQR = Q_3 - Q_1,方框长度 . 因此,上晶须位于最大x值和Q_3 1.5 IQR中的较小者,而较低晶须位于最小x值和Q_1-1.5 IQR中的较大者 .
Additional information
有关替代异常值规则,请参阅wikipedia boxplot页面 .
实际上有多种计算分位数的方法 . 看看`?quantile对九种不同方法的描述 .
Example
请考虑以下示例
> set.seed(1) > x = rlnorm(20, 1/2)#skewed data > par(mfrow=c(1,3)) > boxplot(x, range=1.7, main="range=1.7") > boxplot(x, range=1.5, main="range=1.5")#default > boxplot(x, range=0, main="range=0")#The same as range="Very big number"
这给出了以下图:
当我们将范围从1.7减小到1.5时,我们减少了晶须的长度 . 但是, range=0 是一个特例 - 它相当于"range=infinity"
range=0
我认为ggplot使用标准默认值,与boxplot相同:“胡须延伸到最极端的数据点,不超过盒子长度的1.5倍”
见:boxplot.stats
P1IMSA Tutorial 8 - Understanding Box and Whisker Plots视频提供了(Tukey)盒子和胡须图的可视逐步说明 .
在4分23秒时,我解释了晶须末端的含义及其与1.5 * IQR的关系 .
虽然视频中显示的图表是使用D3.js而不是R来渲染的,但其解释与所提到的箱图的R实现相吻合 .
3 回答
箱图末尾的“点”代表异常值 . 确定点是否是异常值有许多不同的规则,但R和ggplot使用的方法是“1.5规则” . 如果数据点是:
小于Q1 - 1.5 * IQR
大于Q3 1.5 * IQR
然后,这一点被归类为“异常值” . 胡须定义为:
上晶须=最小(最大(x),Q_3 1.5 * IQR)
较低的晶须=最大(min(x),Q_1 - 1.5 * IQR)
其中IQR = Q_3 - Q_1,方框长度 . 因此,上晶须位于最大x值和Q_3 1.5 IQR中的较小者,而较低晶须位于最小x值和Q_1-1.5 IQR中的较大者 .
Additional information
有关替代异常值规则,请参阅wikipedia boxplot页面 .
实际上有多种计算分位数的方法 . 看看`?quantile对九种不同方法的描述 .
Example
请考虑以下示例
这给出了以下图:
当我们将范围从1.7减小到1.5时,我们减少了晶须的长度 . 但是,
range=0
是一个特例 - 它相当于"range=infinity"我认为ggplot使用标准默认值,与boxplot相同:“胡须延伸到最极端的数据点,不超过盒子长度的1.5倍”
见:boxplot.stats
P1IMSA Tutorial 8 - Understanding Box and Whisker Plots视频提供了(Tukey)盒子和胡须图的可视逐步说明 .
在4分23秒时,我解释了晶须末端的含义及其与1.5 * IQR的关系 .
虽然视频中显示的图表是使用D3.js而不是R来渲染的,但其解释与所提到的箱图的R实现相吻合 .