如何拥有一个主要使用数值的data.table,只转换列的一个子集并将它们放回到原始数据表中?通常,我不想将任何摘要统计信息添加为单独的列,只需交换已转换的列 .
假设我们有一个DT . 它有1列名称和10列数字值 . 我感兴趣的是对该数据表的每一行使用基数R的“缩放”功能,但仅适用于那10个数字列 .
并扩展这一点 . 如果我有一个包含更多列的数据表怎么办?我需要使用 column names 告诉scale函数在哪些数据点上应用该函数?
使用常规data.frame我会这样做:
df[,grep("keyword",colnames(df))] <- t(apply(df[,grep("keyword",colnames(df))],1,scale))
我知道这看起来很麻烦但总是对我有用 . 但是,我无法弄清楚在data.tables中执行此操作的简单方法 .
我会想像这样的东西为data.tables工作:
dt[,grep("keyword",colnames(dt)) := scale(grep("keyword",colnames(dt)),center=F)]
但事实并非如此 .
编辑:
使用每行缩放版本更新列的另一个示例:
dt = data.table对象
dt[,grep("keyword",colnames(dt),value=T) := as.data.table(t(apply(dt[,grep("keyword",colnames(dt)),with=F],1,scale)))]
太糟糕了,它需要内部的“as.data.table”部分,因为apply函数的转置值是一个矩阵 . 也许data.table应该在更新列时自动将矩阵强制转换为data.tables?
2 回答
如果您需要的是真正按行扩展,您可以尝试分两步:
第1部分:您要求的单行解决方案:
One-line Solution Version 1: Use magrittR and the pipe operator:
One-line Solution Version 2: Explicitly defines the function for the lapply:
Modification - If you want to do it by group, just use the by =
You can verify:
第2部分:循序渐进的解决方案:(更一般,更容易理解)
上述解决方案对于给出的狭窄示例清楚地起作用 .
作为一项公共服务,我正在为那些仍在寻找方式的人发布此信息
感觉有点不那么浓缩;
更容易理解;
更一般,在某种意义上说,你可以应用你想要的任何函数,而不必先将值计算到一个单独的数据表中(其中,n.b . 在这里完美地工作)
这是一步一步的做法:
将数据导入Data.Table格式:
然后,处理列名:
定义要应用的功能
之后,在Data.Table语法中它是微不足道的:
验证:
存储在列中的新值,其名称存储在:
DT[, .SD, .SDcols = Reference.Cols.normalized]
未经改造的 Value 没有受到伤害
DT[, .SD, .SDcols = Reference.Cols]
希望对于那些在一段时间后返回查看代码的人来说,这种更多的逐步/一般方法可能会有所帮助 .