首页 文章

描述性分析与斜率估计线性模型R之间的不匹配

提问于
浏览
-1

我是一名处理R建模的高级学生 .

我正在尝试找到由n个重复行xm变量列组成的数据集的最佳模型:我想构建一个lm来解释4个分类回归量在Y(连续数据)植物梢数/平方米中的影响 .

公式模型为:lm(Y~a b c d) .

回归水平:“a”有4个等级(阴影百分比等级),“b”有4个等级(4个调查年份),“c”有3个等级(高程等级)和“d”有7个等级(7个空间多边形,其中拍摄样品) .

在描述性分析中,我观察到(带有箱形图)所有回归量水平的Y值强烈下降,特别是对于分类变量“a”:其水平称为“I”(100%轻),“II”(60%),“III” “(30%),”IV“(10%光),具有350,250,150 100 Y中值 .

在概要模型中,我可以观察到每个回归量水平的Y值的预期影响,除了“a”:该回归量的水平与Y具有相反的关系,具有显着的p值 . 这意味着与I(包括在拦截中)相比,II级的估计斜率值为69,III 133和IV 150 .

残差正态分布和方差同质性的诊断图是可以的 .

所以我的问题是,这种影响是否可能,或者我应该以不同的方式阅读摘要?

在此先感谢您的帮助 .

Here you can see the distribution of each factors level included in the model

Summary and diagnostic plot

1 回答

  • 0

    我将您的问题标记为要迁移到交叉验证,因为它更像是一个统计问题 . 希望你在那里得到更详细的答案 .

    在任何情况下,您的不匹配的一个潜在原因是您的解释变量之一与另一个相关 . 这不会出现在您的诊断图中 . 相关变量“导致”您在摘要图中看到的密度下降 . 通过将其包含在回归中删除该效果后,实际效果会显示密度增加

    快速检查是对您的解释变量之间的关联进行一些测试 . 或者,您可以逐步估计线性模型,在另一个之后添加一个变量,以便在添加特定解释变量后查看着色变量的符号是否发生变化 .

相关问题