我有一个数据框,其中包含连续5年不同植物的丰度(每年1个值;从T2到T6),用于不同的地点(15个地点)和处理(浏览与未浏览) . T2到T6在列中,我有一列指定物种 .

对于某些网站,T5系统性缺失 . 对于其他站点,T4和T6都丢失了 . T2和T3适用于所有站点 .

这是一个虚构的例子:

> data = matrix(c(0.02, 0.02, 0.03, NA, 0.06,
+               0.01, 0.04, NA, 0.03, NA,
+               0.11, 0.12, 0.14, NA, 0.19,
+               0.06, 0.04, NA, 0, NA,
+               0.22, 0.26, 0.34, NA, 0.46),5,5, byrow=TRUE)
> colnames(data) = c("T2", "T3", "T4", "T5", "T6")
> data = as.data.frame(data)
> data$species = c("Abibal", "Abibal", "Abibal", "Rubida", "Rubida")
> data
    T2   T3   T4   T5   T6 species
1 0.02 0.02 0.03   NA 0.06  Abibal
2 0.01 0.04   NA 0.03   NA  Abibal
3 0.11 0.12 0.14   NA 0.19  Abibal
4 0.06 0.04   NA 0.00   NA  Rubida
5 0.22 0.26 0.34   NA 0.46  Rubida

因此,没有不包含任何NA的行 .

由于数据系统地丢失但是丢失的可能性与数据值无关,我认为数据是随机丢失(MAR) .

现在,我想使用mouse()和预测均值匹配来估算我丢失的数据 . 我第一次运行它并没有遇到任何错误 . 但是,仔细查看插补数据时,我遇到了一些奇怪的估算数据 .

在尝试更好地理解预测平均匹配背后的机制时,我读到该函数从估计没有丢失数据的情况的线性回归开始 .

这是否意味着该函数仅使用没有丢失数据的行来估计其系数?或者,例如,当函数试图为T5计算值时,它只使用T5没有丢失数据的行来估计他的系数?

此外,在估算系数时,该函数如何考虑定性变量(如“物种”)?它是否单独估算“物种”的每个值的系数?

任何有关此事的帮助,或者在我的案例中最好的方法来估算数据都是值得赞赏的 .

非常感谢你,

洛朗