我在CrossValidated上问了this question,但我认为它仍然是一个R问题太多,所以我会看看是否有机会在这里得到答案 .

假设我有一个示例数据集:

x <- rnorm(20, 5, 1)
x <- append(x, rnorm(20, 8, 1))
x <- append(x, rnorm(20, 13, 1))
y <- rep(c("a", "b", "c"), each = 20)

创建一个线性模型:

xy <- lm(x ~ y)

并调用线性模型的系数摘要:

summary(xy)$coefficients

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   5.2321     0.2258  23.175  < 2e-16 ***
yb            3.1751     0.3193   9.945  4.6e-14 ***
yc            7.4612     0.3193  23.369  < 2e-16 ***

在这一点上,我重新调整因子 y 以更改虚拟变量,并查看 x 的平均值将如何随着不同的虚拟变量而变化 .

Or 我可以使用ANOVA并运行事后测试来找出重要差异的位置 .

我的问题是:

  • 在小模型中(例如,一个连续响应变量有两个分类变量),为什么当ANOVA事后检验可能更容易时,人们想要重新考虑一个因素?我可以想象在非常大的模型中(例如,大于50个解释变量),ANOVA事后测试可能是不可能的,但那会导致......

  • 对于具有大量分类变量的大型模型(例如),是否有必要重新定位每个分类变量以查看它如何影响响应变量的均值,或者整个模型的F统计量更重要?

有没有一个例子可以用来说明何时会或想要在多元线性回归模型中使用relevel?