首页 文章
  • 1 votes
     answers
     views

    将Dplyr连接和设置操作合并到自定义功能中

    我有两个简单的数据帧 . 我想使用dplyr和tidyverse来查找第二个数据帧(Df2)的“Task2”中不属于第一个数据帧(Df)的“任务”的类别 . 我想使用dplyr的“setdiff”函数 . 另外,我想保留第二个数据帧(Df2)的“时间”列的相应时间 . 因此,最终产品应该包括两行,一个用于客户“Chris”的“铁衬衫”,总时间为30,客户“Eric”的一行,“购买杂货”,相应的时间...
  • 1 votes
     answers
     views

    匹配数据帧,排除上次非NA值并忽略订单

    我有两个数据帧: Partner<-c("Alpha","Beta","Zeta") COL1<-c("A","C","M") COL2<-c("B","D","K") COL3<-c(&quot...
  • 1 votes
     answers
     views

    Dplyr滚动 balancer

    我正在尝试计算余额列 . 那么,为了展示一个例子,我想从此开始: df <- data.frame(group = c("A", "A", "A", "A", "A"), start = c(5, 0, 0, 0, 0), ...
  • 0 votes
     answers
     views

    基于具有多个匹配的另一数据帧来变异列

    我有以下数据框架 DF1 ID PMT_DATE 100 2015/01/01 100 2015/02/01 100 2015/04/01 200 2016/01/01 200 2016/02/01 和df2 ID DATE STATUS 100 2014/12/31 A 100 2015/03/15 B 200 20...
  • 1 votes
     answers
     views

    R dplyr:来自外部查找表的summarise_each?

    如何使用 dplyr 解决以下玩具问题: 取一个数据框,其中每行包含至少两个由空格分隔的虹膜种类: mySpecies <- data.frame( Species=c("lazica uniflora setosa", "virginica setosa uniflora loczyi", "versi...
  • 0 votes
     answers
     views

    验证时间序列索引

    我正在使用一个数据集,该数据集按 dplyr 函数的 group_by 分组 . 每个组都有自己的时间索引,即假定由12个月的序列组成 . 这意味着它可以从1月开始到12月结束,或者在其他情况下可以从前一年的6月开始到明年5月结束 . 这是数据集示例: ID DATE 8 2017-01-31 8 2017-02-28 8 2017-03-31 ...
  • 2 votes
     answers
     views

    重新排列不 balancer 的时间序列数据

    我有一个大的不 balancer 数据集(大约2000个股票),包括股票的返回数据,现在我想重新安排返回数据,所以它们都在同一天结束 . 我的数据看起来像这样: Date RF STOCK-A STOCK-B STOCK-C STOCK-D 1990-11-30 0,03 0,20 0,30 -0,40 0,90 1990-12-31 ...
  • 2 votes
     answers
     views

    在时间序列的背景下分解

    我有一个数据集,我想要整体可视化,并通过一些不同的变量分解 . 我创建了一个带有玩具闪亮应用程序的flexdashboard来选择分解类型,并使用工作代码来绘制正确的子集 . 我的方法是重复的,这对我来说是一个暗示,我错过了一个更好的方法来做到这一点 . 让我沮丧的是需要按日期计算并扩展矩阵 . 我不确定如何在一个管道中按周计算组数 . 我分几步完成并组合 . 思考? (ps . 我在RStudi...
  • 1 votes
     answers
     views

    将时间序列的异常值替换为时间序列中的其他值

    我有一个时间序列,我想随机替换异常值与其他(非异常值)值 . 时间序列如下: date Category Value1 2018-09-10 A .4 2018-09-10 B .6 2018-09-10 A 4 2018-09-10 C ...
  • 2 votes
     answers
     views

    计算每个站点的标签并在R中创建汇总表[重复]

    这个问题在这里已有答案: How do I get a contingency table? 6个答案 Faster ways to calculate frequencies and cast from long to wide 3个答案 以下是与我的数据集类似的部分内容: require(dplyr) alldata site date percent_rank ...
  • 3 votes
     answers
     views

    将特定列中每行的值转换为该特定列中特定行的值的百分比

    我的数据框由财务报表中的数据组成(例如损益表,资产负债表,现金流量表),每行指的是财务报表条目(例如收入,利润),每列指的是特定年份 . 数据的一个例子如下: variable <- c("Revenue", "Cost of Goods Sold", "Gross Profit", "SG&A", &q...
  • 2 votes
     answers
     views

    从R Dataframe中的JSON中提取特定日期的值

    我有一个下面提到的数据帧: ID Rank Name Json_Data IR-122 RE AFG {as below sample} IR-122 UI SSw {as below sample} IR-123 RF HEr {as below sample} IR-123 RO ...
  • 1 votes
     answers
     views

    闪亮 - 在用于ggplot的反应式dplyr表达式中使用来自sliderInput的日期范围

    我正在创建一个闪亮的应用程序,显示各种股票的各种财务指标的趋势 . 各个股票的财务指标在每个季度末提供 . 我想让我的最终用户能够使用Slider Input来选择 date range 进行分析 . 之前关于SO的问题涉及使用 single value 作为滑块而不是范围(例如this post) . 因此,我无法复制解决方案 . 以下是我正在使用的包和模拟数据文件 . 共有3列:(a)日期,(...
  • 0 votes
     answers
     views

    有没有更快的方法来创建加权分数的数据框架?

    我正试图找到一种更好,更快的方法来汇总由加权平均值组成的汇总统计表 . 使用dplyr汇总然后bind_rows我最终得到一个像这样的表 . 这些数字是简单平均值 . 计算每个组的每个因子的平均值 . 数据帧:au.scores AU AUDIT CORC GOV PPS TMSC TRAIN 1 Group1 2.833333 2.000000 2...
  • 14 votes
     answers
     views

    删除缺少x%的列/行

    我想删除数据框中超过50% NA 的所有列或行 . 这是我的解决方案: # delete columns with more than 50% missings miss <- c() for(i in 1:ncol(data)) { if(length(which(is.na(data[,i]))) > 0.5*nrow(data)) miss <- append(miss...
  • 1 votes
     answers
     views

    计算dplyr中每行的非NA数值的数量

    我创建了一个数据帧df . df <- data.frame (id = 1:10, var1 = 10:19, var2 = sample(c(1:2,NA), 10, replace=T), var3 = sample(c(3:5, NA), 10, replace=T)) 我需要的是一个新的列var4,它计算每行的非NA值的数量(不包括id列) . 因此,例...
  • 0 votes
     answers
     views

    有没有办法在使用group_by分组后重新排序变量的级别?

    我想重现在"Text mining with R"一书的第4.1.3节中找到的图4.3 . sentiment analysis 本节试图通过四个关键否定词“不”,“不”,“从不”和“不”来对所有双字母组合,并且对于每个组,它将绘制情感贡献(仅通过否定词后面的单词,这意味着对这本书的错误贡献 . 因此,我将绘制单词作为y轴和贡献作为x轴,并且为了使图看起来不错,我还希望每个...
  • 3 votes
     answers
     views

    Dplyr的tbl_df在逐字符串选择时会出现意外行为

    通常,当以编程方式使用dplyr时,我将要按名称选择列,其中列名称作为字符串存储在某个变量中 . 我注意到尝试使用dplyr进行此操作通常会导致意外结果 . 这似乎是tbl_df如何处理的结果 . 以下是一些例子: ## regular data frame: df = data.frame(subject = 1:3, resp = c(2,3,3)) # example dataframe...
  • 16 votes
     answers
     views

    在列的子集上执行dplyr mutate

    我有一个像这样的data.frame(真正的数据集有更多的行和列) set.seed(15) dd <- data.frame(id=letters[1:4], matrix(runif(5*4), nrow=4)) # id X1 X2 X3 X4 X5 # 1 a 0.6021140 0.3670719 0.6...
  • 1 votes
     answers
     views

    获取数据框中与给定行在列中具有相同值的行

    我有一个数据帧df,它的第一行row1: df <- data.frame(x = c(1,1,1,1,0,0,1), y = c(0,0,0,0,1,1,0), z = c(1,0,0,0,0,1,1)) > df x y z 1 1 0 1 2 1 0 0 3 1 0 0 4 1 0 0 5 0 1 0 6 0 1 1 7 1 0 1 > row1 <- df[1,...
  • 2 votes
     answers
     views

    闪亮:使用不同的变量创建反应过滤器 .

    我有一个数据框架,结合了社会人口统计学数据和多个网站的意识测量 . 每个网站都有一个单独的列,说明该人是否知道该网站(“是”/“否”) . 此外,每个受访者应该根据他呈现的人数(变量popWeight)进行加权 . 我想创建一个闪亮的应用程序,显示知道所选网站的人的情节 . 该网站应该可以通过selectInput()按钮进行选择 . 我在stackoverflow上找到了几篇关于dplyr有光泽...
  • 0 votes
     answers
     views

    比较dplyr中组内列中的值

    我想使用dplyr比较分组data.frame中的值,并创建一个虚拟变量或类似的东西,指示哪个更大 . 无法搞清楚! 这是一些可重现的代码: table <- structure(list(species = structure(c(1L, 1L, 1L, 2L, 2L, 2L), .Label = c("Adelophryne adiastola", "Ad...
  • 6 votes
     answers
     views

    dplyr:如何以编程方式将full_join数据帧包含在列表列表中?

    上下文和数据结构 我将与您分享我的庞大数据集的简化版本 . 此简化版本完全尊重原始数据集的结构,但包含的列表元素,数据框架,变量和观察结果比原始数据集少 . 根据对该问题的最热烈回答:How to make a great R reproducible example ?,我使用 dput(query1) 的输出共享我的数据集,通过在R控制台中复制/粘贴以下代码块,为您提供可立即在R中使用的内容:...
  • 0 votes
     answers
     views

    管道内的hist()和dplyr中的group_by

    我正在寻找一种方法来利用 dplyr 的 group_by 功能进行计数,并在分组_by gear 和 vs 之后使用 mpg 的无绘图直方图 . 我的代码是: mtcars %>% group_by(gear,vs) %>% summarise(counts = count (n), hist(mpg, plot = FALSE, breaks = c(seq(10,40,1)...
  • 0 votes
     answers
     views

    用dplyr计算分组二进制数据的置信区间

    我对R以及分析二进制数据都相当新,目前正试图评估参与者的焦虑率是否与他们暴露于风险因素有关 . 为此,我最初计划计算每个暴露组中参与者的比例,这些参与者被诊断出患有95%置信区间的焦虑,并绘制这些参与者 . 但是我的置信区间计算不正确,我无法弄清楚原因 . 我的数据集的简化版本如下: library(tidyverse) anxietytable <- tibble( id = c(1...
  • 100 votes
     answers
     views

    在dplyr中替换“重命名”

    我喜欢plyr的重命名功能 rename . 我最近开始使用dplyr,并想知道是否有一种简单的方法可以使用dplyr中的函数重命名变量,这与plyr的 rename 一样容易使用?
  • 1 votes
     answers
     views

    使用dplyr对data.fram进行分组会影响除dplyr谓词之外的任何其他操作吗?

    也许这是一个多余的问题,但在看了下面的问题之后我有点好奇:Error selecting a column after grouping the dataframe using group_by from dplyr 0.3.02 . 这在dplyr的更高版本中似乎不是问题 . 重新运行示例(dplyr 0.4.3)时,我没有得到“Index out of bounds”消息,我可以选择列(虽然输...
  • 21 votes
     answers
     views

    使用OR来使用dplyr过滤数据帧的更好方法是什么?

    我在 R 中有一个数据框,其中列 subject1 和 subject2 (其中包含美国国会图书馆主题 Headers ) . 我想通过测试主题是否与批准的列表匹配来过滤数据框 . 比如说,我有这个数据框 . data <- data.frame( subject1 = c("History", "Biology", "Physics&q...
  • 4 votes
     answers
     views

    R:将Anova应用于一个数据集的不同子集并收集输出的功能

    一个常见的任务是必须在数据集的不同子集上执行某种统计分析(如anova,glm或混合模型),并将输出表与汇总系数和p值组合在一个数据帧中 . 我正在寻找一个通用函数,它将采用模型类型(例如 aov(...) 或 lm(...) 或 glm(...) 或 glmer(...) )以及根据每个重复分析必须为其返回系数和p值的特定输出项 . 一个数据集中的一些分组变量 . 假如我有一个数据帧,我想在数据...
  • 5 votes
     answers
     views

    dplyr group_by和cummean函数

    我希望下面的代码输出一个包含三行的数据框,每行代表计算每组 cyl 的平均值后的mpg累积平均值: library(dplyr) mtcars %>% arrange(cyl) %>% group_by(cyl) %>% summarise(running.mean.mpg = cummean(mpg)) 这就是我预期会发生的事情: mean_cyl_4 <- mtcar...

热门问题