首页 文章

如何以更优雅的方式有条理地组合列表中的data.frame对象?

提问于
浏览
1

我在列表中有data.frame,我打算有条件地合并特定的data.frame对象,其中合并第二个,第三个data.frame对象而不重复,然后将它与第一个data.frame对象合并 . 但是,我使用rbind函数来完成这个任务,但我的方法并不优雅 . 任何人都可以帮我改进解决方案吗?如何实现可用于动态函数式编程的更兼容的解决方案?如何获得所需的输出?任何的想法 ?

可重复的例子:

dfList <- list(
  DF.1 = data.frame(red=c(1,2,3), blue=c(NA,1,2), green=c(1,1,2)),
  DF.2 = data.frame(red=c(2,3,NA), blue=c(1,2,3), green=c(1,2,4)),
  DF.3 = data.frame(red=c(2,3,NA,NA), blue=c(1,2,NA,3), green=c(1,2,3,4))
)

虚拟方式:

rbind(dfList[[1L]], unique(rbind(dfList[[2L]], dfList[[3L]])))

显然,我在函数式编程中的应用并不优雅 . 如何才能优雅地实现这一目标?

期望的输出:

red blue green
1    1   NA     1
2    2    1     1
3    3    2     2
11   2    1     1
21   3    2     2
31  NA    3     4
6   NA   NA     3

如何更优雅,更有效地改进我的解决方案?提前致谢

2 回答

  • 1

    这样做的最好(最简单和最快捷的方式)是 data.table::rbindlist .

    它会像这样工作:

    library(data.table)
    dfList <- list(
      DF.1 = data.table(red=c(1,2,3), blue=c(NA,1,2), green=c(1,1,2)),
      DF.2 = data.table(red=c(2,3,NA), blue=c(1,2,3), green=c(1,2,4)),
      DF.3 = data.table(red=c(2,3,NA,NA), blue=c(1,2,NA,3), green=c(1,2,3,4))
    )
    
    # part 1: list element 1
    dt_1 <- dfList[[1]]
    
    # part 2: all other list elements (in your case 2 and 3)
    dt_2 <- unique(rbindlist(dfList[-1]))
    
    # use rbindlist to bind the rows together
    dt_all <- rbindlist(list(dt_1, dt_2))
    

    评论 .

    我的解决方案非常接近您提出的解决方案 . 我认为关于这种方式的“丑陋”是合并数据集并解除第一个元素(并以不同的方式对待)的边缘情况 . 最好的解决方案可能是退一步思考潜在的想法并使用数据集中的附加变量(即df1然后df2_3)来解决它,我认为这是R-way .

    这个想法的东西看起来像这样:

    myList2 <- list(
      DF.1 = data.table(red=c(1,2,3), blue=c(NA,1,2), green=c(1,1,2), var = "df1"),
      DF.2 = data.table(red=c(2,3,NA), blue=c(1,2,3), green=c(1,2,4), var = "other"),
      DF.3 = data.table(red=c(2,3,NA,NA), blue=c(1,2,NA,3), green=c(1,2,3,4), var = "other")
    )
    
    dt <- rbindlist(myList2)
    unique(dt)
    # red blue green   var
    # 1:   1   NA     1   df1
    # 2:   2    1     1   df1
    # 3:   3    2     2   df1
    # 4:   2    1     1 other
    # 5:   3    2     2 other
    # 6:  NA    3     4 other
    # 7:  NA   NA     3 other
    
  • 3

    一种只有基数R的data.frames列表的方法是 do.call(list, rbind) (参见this question,它也提供了一些替代方案) .

    如果您只想要唯一的行,您可以跟进 unique

    unique(do.call(dfList, rbind))
    

相关问题