我有一个类似于以下结构生成的数据帧:
library(dplyr)
df1 <- expand.grid(region = c("USA", "EUR", "World"),
time = c(2000, 2005, 2010, 2015, 2020),
scenario = c("policy1", "policy2"),
variable = c("foo", "bar"))
df2 <- expand.grid(region = c("USA", "EUR", "World"),
time = seq(2000, 2020, 1),
scenario = c("policy1", "policy2"),
variable = c("foo", "bar"))
df2 <- filter(df2, !(time %in% c(2000, 2005, 2010, 2015, 2020)))
df1$value <- rnorm(dim(df1)[1], 1.5, 1)
df1[df1 < 0] <- NA
df2$value <- NA
df1[df1$region == "World" & df1$variable == "foo", "value"] <- NA
df <- rbind(df1, df2)
rm(df1, df2)
df <- arrange(df, region, scenario, variable, time)
df
包含两个"types"的NA . 对于区域和变量的一个组合(World / foo),根本没有数据 . 对于所有其他组合,我们在2000年,2005年,2010年,2015年,2020年之间的所有年份都有NA .
我需要一个过滤器来删除仅包含NA的区域和变量的组合,但保留那些仅包含少量NA的组合 . 背景是我想通过组合 dplyr
和 zoo
-package(用于插值)的功能来应用线性插值来计算后者的缺失值:
df <- group_by(df, region, scenario, variable, time) %>%
mutate(value = zoo::na.approx(value)) %>% ungroup()
仅包含NAs的组导致 na.approx
返回错误,因为它不能仅对NA起作用 .
1 回答
要仅保留在
value
中至少包含1个非NA条目的region
和variable
的组合,您可以使用:或等效地:
使用data.table,您可以使用:
基数R的方法可以是: