-
10 votesanswersviews
在dplyr中访问分组数据
从dplyr应用group_by函数并使用% . %运算符后,如何访问分组数据 例如,如果我想拥有每个分组数据的第一行,那么我可以使用plyr包作为 ddply(iris,.(Species),function(df){ df[1,] }) #output # Sepal.Length Sepal.Width Petal.Length Petal.Width Species #1 ... -
-5 votesanswersviews
总结组中的多个变量
我需要找到变量的平均值和r中该平均值的特定组合发生的次数 . 在示例中,我按变量 cli , cus 和 ron 分组,需要汇总以查找此组合的 age 的平均值和 cash 的频率: df%>% group_by(.dots=c("cli","cus","ron")) %>% summarise_all(mean(age),l... -
13 votesanswersviews
对于每个组,汇总数据框中所有变量的均值(ddply?split?)
一周前,我会手动完成此操作:按组分组数据到新数据帧 . 对于每个数据帧计算意味着每个变量,然后是rbind . 非常笨重...... 现在我已经了解了 split 和 plyr ,我想必须有一种更简单的方法来使用这些工具 . 请不要证明我错了 . test_data <- data.frame(cbind( var0 = rnorm(100), var1 = rnorm(100,1), va... -
6 votesanswersviews
data.table或dplyr - 数据操作
我有以下数据 Date Col1 Col2 2014-01-01 123 12 2014-01-01 123 21 2014-01-01 124 32 2014-01-01 125 32 2014-01-02 123 34 2014-01-02 12... -
12 votesanswersviews
dplyr:将函数table()应用于data.frame的每一列
使用dplyr将函数table()应用于data.frame的每一列 我经常使用plyr在数据帧的每一列上应用表函数,如下所示: library(plyr) ldply( mtcars, function(x) data.frame( table(x), prop.table( table(x) ) ) ) 是否可以在dplyr中执行此操作? 我的尝试失败了: mtcars %>% d... -
1 votesanswersviews
R:分组滚动窗口线性回归与rollapply和ddply
我有一个包含多个分组变量的数据集,我想在其上运行滚动窗口线性回归 . 最终目标是提取具有最低斜率的10个线性回归并将它们平均在一起以提供平均最小变化率 . 我找到了使用rollapply来计算滚动窗口线性回归的示例,但是我有一个额外的复杂性,我想将这些线性回归应用于数据集中的组 . 这是一个示例数据集和我当前的代码,它很接近并且不太起作用 . dat<-data.frame(w=c(rep(... -
1 votesanswersviews
tapply - 创建NA?
我正在尝试计算每人独特水果的平均数量(我的惯常做法数据) . 这适用于以下两行代码: with(df, tapply(fruit, names, FUN = function(x) length(unique(x))))->uniques sum(uniques)/length(unique(df$names)) aggregate(df[,"fruit"], by=l... -
14 votesanswersviews
R ggplot和facet网格:如何控制x轴断点
我试图使用ggplot绘制每个日历年的时间序列中的变化,并且我对x轴的精细控制存在问题 . 如果我不使用 scale="free_x" 那么我最终会得到一个显示几年以及相关年份的x轴,如下所示: 如果我确实使用了 scale="free_x" ,那么就像我们预期的那样,我最终会为每个情节添加刻度标签,并且在某些情况下会因情节而异,我不想要: 我已尝试使用... -
1 votesanswersviews
创建匹配组内条件的表计数案例
我有一个数据集(HQ2),每行都是一个住在村里的人 . 有一个变量H_Code(识别人的家庭),年龄(人的年龄),性别,民族,职业,与户主的关系 . 我想创建一个新表(H.data),其中每行是一个家庭,然后是具有以下变量的列: - 成人数(即年龄> 16) - 子女数(即年龄= <16) - 大多数家庭内的普通族群 - 占家庭户主 为此,我一直在尝试ddply,但一直无法管理 . 我... -
1 votesanswersviews
使用列表中包含的一些但不是所有字符串的多个模式提取和组合多个子字符串并返回到R中的列表
我想找到一种优雅且易于操作的方式: 从包含为列表元素的一些(但不是全部)字符串中提取多个子字符串(每个列表元素只包含一个长字符串) 用这些多个子串替换相应的原始长字符串 将每个列表元素中的子字符串折叠为1个字符串 返回包含替换子字符串和未触及的长字符串的相同长度的列表 . 这个问题是我之前提出的问题的后续(虽然不同):replace strings of some list e... -
3 votesanswersviews
获取所有可能答案的R频率计数
我从R开始,我仍然在寻找语法 . 我希望得到一个比例变量的频率,其值为0到10和NA . Id <- c(1,2,3,4,5) ClassA <- c(1,NA,3,1,1) ClassB <- c(2,1,1,3,3) R <- c(5,5,7,NA,9) S <- c(3,7,NA,9,5) df <- data.frame(Id,ClassA,ClassB... -
32 votesanswersviews
在R中的数据帧的每一行上执行plyr操作
我喜欢plyr语法 . 任何时候我必须使用* apply()命令之一,我最终踢狗并进行为期3天的弯曲 . 因此,为了我的狗和我的肝脏,在数据帧的每一行上执行ddply操作的简洁语法是什么? 这是一个适用于简单案例的示例: x <- rnorm(10) y <- rnorm(10) df <- data.frame(x,y) ddply(df,names(df) ,function... -
1 votesanswersviews
如何在使用ddply时检索全局索引?
我试图从 plyr 包中的Diamonds数据集中找到价格/克拉的最佳交易 所以我做到了 new = ddply(diamonds, c("cut", "color", "clarity"), transform, ecart= price/carat - mean(price/carat)) best = ddply(n... -
1 votesanswersviews
ddply多个函数参数命名
浏览其他问题我几乎解决了我的问题,但在最后一道障碍失败了...... 用R 我有一个数据帧(d),我通过plyr包中的ddply传递一个函数(fd),这会返回一个预期的数据帧 . 在我的实际数据帧中,我想要传递给函数的大量变量,而不是多次调用它,我还想给输出数据表赋予相关的col.names . 试图一步一步地做下面的工作...... 样本数据: d<-structure(list(date... -
2 votesanswersviews
在我的软件包中使用ddply时,如何摆脱R CMD检查生成的NOTE?
我有一个与How can I handle R CMD check "no visible binding for global variable" notes when my ggplot2 syntax is sensible?相似但又不同的问题 . 在那种情况下,通过使用aes_string而不是aes,一切都顺利进行 . 然而,这与plyr afaik无法实现 . 例如... -
0 votesanswersviews
R ddply dcast替代?
我想将数据(data.frame)从长格式转换为宽格式,并将“ITEM”的值作为列和值(“ITEM2”)(见下文): 长格式: 宽幅: 因此我使用包reshape2中的dcast函数: df <= dcast(df,SEQUENCEID + EVENTID ~ ITEM, value.var="ITEM2") 这样做一切正常 . 但是在我的数据框中有7m的数据记录,... -
0 votesanswersviews
从plyr的ddply(或类似功能)中保存临时ouptut
我有一个包含多个条件和参与者的大型数据集 . 我正在使用ddply,这样对于参与者X条件的每个组合,我可以运行许多函数并保存最终输出 . 由于从感兴趣的包中实施各种功能需要一些时间,因此整个分析可能需要1-2周 . 因此,我不仅希望等待ddply函数将最终输出保存在单个数据帧中,而且还希望保存临时输出,以防计算机崩溃,从而保存到目前为止完成的工作(即一种备份) . 例如,如果ddply函数在计算机... -
2 votesanswersviews
Dplyr group_by日期
我很困惑dplyr group_by函数如何处理Date对象 . 这是一个按预期工作的示例 . library(data.table); library(dplyr); library(lubridate) DT <- data.table(A = sample(1:100,12), B = (c("7-1-2015", "7-2-2015", &... -
37 votesanswersviews
ddply错误的含义:'names' attribute [9]的长度必须与vector [1]的长度相同
我正在通过黑客机器学习,我被困在这一行: from.weight <- ddply(priority.train, .(From.EMail), summarise, Freq = length(Subject)) 这会产生以下错误: Error in attributes(out) <- attributes(col) : 'names' attribute [9] must... -
16 votesanswersviews
当我在`dplyr`之后加载`plyr`时,为什么汇总或变异不能用于group_by?
注意:此问题的 Headers 已经过编辑,以便在 plyr 函数掩盖其 dplyr 对应项时将其作为问题的规范问题 . 问题的其余部分保持不变 . 假设我有以下数据: dfx <- data.frame( group = c(rep('A', 8), rep('B', 15), rep('C', 6)), sex = sample(c("M", "F... -
1 votesanswersviews
计算组内的实例(子集)
我为我的数据做了一个小例子: mth <- c(rep(1,10)) day <- c(rep(10,5),rep(11,5)) hr <- c(3,4,5,6,7,3,4,5,6,7) v <- c(3,4,5,4,3,3,4,5,4,3) A <- data.frame(cbind(mth,day,hr,v)) 我需要做的是每天获得多少值<... -
5 votesanswersviews
使用dplyr从不同的data.frame中提取数据?
我有一个名为dat_new的数据框,基本上是诊所访问数据,hrn是患者ID,而dov是访问日期(每人多次访问) . 然后我有一个名为事件的数据框,其中有过期的住院(每人多次入院) . 我想做的是,对于每次门诊就诊,我想总结在门诊就诊之前发生的住院,简单 . 这适用于plyr的ddply,需要一点时间但效果很好 . temp <- ddply(dat_new, .(hrn,dov), summ... -
81 votesanswersviews
dplyr总结:相当于“ . drop = FALSE”以保持输出中长度为零的组
使用 summarise 和 plyr 的 ddply 函数时,默认情况下会删除空类别 . 您可以通过添加 .drop = FALSE 来更改此行为 . 但是,当 summarise 与 dplyr 一起使用时,这不起作用 . 还有另一种方法可以在结果中保留空类别吗? 这是假数据的一个例子 . library(dplyr) df = data.frame(a=rep(1:3,4), b=rep(... -
2 votesanswersviews
Plyr / data.table子集
我的数据排列方式是在单独的列中包含日/月/年(这对于我需要如何对数据进行子集化非常有用) . 除D / M / Y之外的每列都是值列 . 在我的真实数据中,这些是美国的县 . 我需要根据不同的日,月和年组合来总结不同的日期范围 . 鉴于每列都是一个县,ddply / data.table / apply函数似乎最适合解决问题 . 但是,我无法弄清楚如何对数据进行子集化 . 这是一个简单的例子: s... -
6 votesanswersviews
组内插值
目标 我想在数据帧中的组内插值 . 这将为数据帧中的每个组提供任意数量的中间点 . 最小的工作示例 我有一个数据框,如: OldDataFrame <- data.frame(ID = c(1,1,1,2,2,2), time = c(1,2,3,1,2,3), Var1 = c(... -
46 votesanswersviews
如何在每个组中创建滞后变量?
我有一个data.table: set.seed(1) data <- data.table(time = c(1:3, 1:4), groups = c(rep(c("b", "a"), c(3, 4))), value = rnorm(7)) data # grou... -
1 votesanswersviews
将数据集分组为时间间隔,然后计算每个时间段内的许多列
我的数据集来自过程控制系统,其中包含由逻辑交换功能创建的各种数字输入(记录为“报警”) . 每个事件将输入的状态从0更改为1,在数据集中记录为“N”或“Y”字符,因此: tstamp alarm0 alarm1 alarm2 alarm3 alarm4...alarm204 2015-10-01 16:23:06 N N N N... -
0 votesanswersviews
依靠符合标准的每个组R [重复]
这个问题在这里已有答案: Easy way to convert long to wide format with counts [duplicate] 4个答案 我有以下数据集,我试图找到每台机器处于活动状态并基于SwitchedOnDate处于睡眠模式的天数 . MachineID InstalledDate SwitchedOnDate Status 1 2010-... -
0 votesanswersviews
使用PLYR来计算哪种条件
我试图将which函数与count函数结合使用 . 我想计算一下这个条件的因素数量 . 此代码不正确,但任何建议将不胜感激 . library(plyr) count(data, 'factor', which numeric > 10) #Base version attempt count(data$factor, which(data$numeric > 10)) Error... -
2 votesanswersviews
在每一行上运行函数,返回多行R.
经过大量的实验和谷歌搜索...以及随后的实验再次,我终于得到了关于StackOverflow的第一个问题:) 我有一个data.frame,并希望将自定义函数 expandBases 应用于data.frame的每一行 . expandBases 返回由1行或更多行组成的data.frame(这将根据提供给它的数据而有所不同) . expandBases 实际上返回的列数多于下面的玩具示例...