滚动连接R中的data.table-Java 学习之路

我试图更多地了解滚动连接的工作方式并且有一些混乱，我希望有人可以为我澄清这一点 . 举一个具体的例子：

dt1 <- data.table(id=rep(1:5, 10), t=1:50, val1=1:50, key="id,t")
dt2 <- data.table(id=rep(1:5, 2), t=1:10, val2=1:10, key="id,t")

我希望这会产生一个长 data.table ，其中 dt2 中的值被滚动：

dt1[dt2,roll=TRUE]

相反，正确的方法似乎是：

dt2[dt1,roll=TRUE]

有人可以向我解释一下如何加入 data.table ，因为我显然没有正确理解它 . 我认为 dt1[dt2,roll=TRUE] 对应于 select * from dt1 right join dt2 on (dt1.id = dt2.id and dt1.t = dt2.t) 的sql，除了添加了功能locf .

另外文档说：

X[Y] is a join, looking up X's rows using Y (or Y's key if it has one) 
as an index.

这使得似乎只返回X中的内容，正在进行的连接是内连接，而不是外连接 . 那个 roll=T 但 dt1 中不存在 id 的情况怎么样？玩了一下我无法理解列中放置了什么值 .

1 回答

25

文档中的引用似乎来自FAQ 1.12 X [Y]和合并（X，Y）之间的区别是什么 . 您是否在 ?data.table 中找到以下内容并且有帮助吗？

roll适用于最后一个连接列，通常是日期，但可以是任何有序变量，不规则且包括间隙 . 如果roll = TRUE并且i的行与除最后一个x join列之外的所有列匹配，并且其在最后一个i join列中的值落在一个间隙中（包括在该组中x的最后一次观察之后），那么x中的主导值是向前滚动 . 使用修改的二进制搜索，此操作特别快 . 该操作也称为最后观察结果（LOCF） . 通常，x的键中不应有重复项，最后一个键列是日期（或时间或日期时间），并且x的键的所有列都连接到 . 一个常见的习惯用法是在一组标识符（ID）中选择同期的常规时间序列（dts）：DT [CJ（ids，dts），roll = TRUE]其中DT具有2列密钥（id，date）和CJ代表交叉加入 .

rolltolast类似于roll，但数据不会前滚到连接列定义的每个组中的最后一个观察点 . 对于由除最后一个连接列之外的所有连接列定义的组，i的值必须落在x中的间隙中，而不是在数据结束之后 . roll and rolltolast可能都不是TRUE .

就SQL连接的左/右类比而言，我更倾向于在FAQ 2.14的上下文中考虑这个问题 . 您能否进一步解释为什么data.table受到基础中A [B]语法的启发 . 那's quite a long answer so I won'贴在这里 .

回复于 2024-04-26T22:26:44+08:00

滚动连接R中的data.table

1 回答

相关问题