-
0 votes0 answers342 views
缺少foreach和Parallel的结果
由于前一个脚本中的内存限制,我在类似的问题中按照此建议对其进行了修改(不提供比工作人员更多的数据 - reading global variables using foreach in R) . 不幸的是,现在我正在努力寻找缺失的结果 . 该脚本遍历1.9M列矩阵,处理每一列并返回一行数据帧(来自foreach的rbind函数组合每一行) . 但是,在打印结果时,行数(结果)少于列数,并且每次运... -
1 votes2 answers622 views
在R中的数据框的每个元素上应用带参数的函数
我有一个包含多个列的数据框 . 一列的条目值可以是负数或正数 . 我想对此列中的每个条目应用一个函数,以便在它为负数时将其设置为0,否则该值应保持不变 . 我的想法如下: df <- data.frame("ID" = c(1,2,3,4,5),"value" = c(1,-1,0,2,-2)) f <- function(value) { ... -
1 votes2 answers342 views
R中的录音
我在R for Windows中玩一些音频和声音包(我的是Win7 x64) . 我尝试使用record()从麦克风录制时出现问题: 它只能记录一次然后再记录一些,直到重启整个控制台 一旦录制声音,它可以保存但不能播放()从上面录制的 文件无法通过音频读取,但是由于'incomplete wave file'而调整了 以及以下“文件名”不起作用 filename = paste... -
0 votes2 answers512 views
在R中将%H:%M:%S添加为as.POSIXct格式
这看起来像是微不足道的问题,但我无法使其发挥作用 . 我只需要将午夜转换为POSIXct格式,还可以使用小时,分钟和秒,就像这样: nextDay_t <- strptime(paste0(as.character(Sys.Date() + 1)," 00:00:00"), format = "%Y-%m-%d %H:%M:%S") nextDay_t... -
3 votes3 answers1235 views
覆盖[.data.frame以默认删除未使用的因子级别
在子集化出现时丢弃未使用的因子级别的问题before . 常见的解决方案包括通过声明尽可能使用字符向量 options(stringsAsFactors = FALSE) 但是,有时候,有序因子对于绘图是必要的,在这种情况下,我们可以使用 droplevels 之类的便利函数来为 subset 创建一个包装器: subsetDrop <- function(...){droplevels(... -
7 votes2 answers1816 views
子集单个因子的所有级别
有没有办法在一个干净的猛扑中将所有级别的单个因子分组? 案例:假设您有一个数据框,其中一列是一个因子(数据$因子),并且您想要创建仅包含一个因子级别的子集数据框 . 当通过编写单独的子集命令存在少量因素时,这很容易做到 . 但是,如果你有很多级别(例如50级)怎么办?在这种情况下是否有命令或巧妙的方法来创建所有子集而无需编写50个子集命令? -
8 votes6 answers210 views
优雅的方式从数据框中删除稀有因子水平
我想按因子对数据帧进行子集化 . 我只想保留高于特定频率的因子水平 . df <- data.frame(factor = c(rep("a",5),rep("b",5),rep("c",2)), variable = rnorm(12)) 此代码创建数据框: factor variable 1 a -1.559... -
2 votes2 answers1078 views
R - 仅显示数据帧子集中使用的级别
我有一个相当大的数据框,其中有一个具有很多级别(超过4,000)的因子 . 我在同一个数据框中有另一列我用作参考,我想要找到的是当参考列为NA时的水平子集 . 我正在使用的第一步是 subsetrows <- which(is.na(mydata$reference)) 但是之后我就被卡住了 . 我想要像 levels(mydata[subsetrows,mydata$factor]) 这样... -
1 votes1 answers840 views
为每个因子级别设置数据框[重复]
这个问题在这里已有答案: Split/subset a data frame by factors in one column [duplicate] 1回答 给定下面的数据集 red_wine_data ,如何创建列表 l ,其中包含 unique(red_wine_data$condition) 中所有值的以下四个子集化数据帧? I'm looking for a flexible an... -
0 votes1 answers329 views
按因子子集后R空数据帧
我需要根据一个因子变量的内容对我的数据进行子集化 . 我尝试用子集做到这一点: new <- subset(data, original$Group1=="SALAD") 数据已经是较大数据帧的子集,原始我有因子变量,应该识别所需的行 . 这适用于因子变量的一个级别,但(我真的不明白为什么!!)当我用其他因子级别"BREAD"它创建数据框但是说“ n... -
2 votes1 answers303 views
HT在数据帧中创建一个新的向量,用于获取现有向量的相关性
我有两个索引的时间序列,每行代表同一天的收盘价 . 我想去第30行并回顾过去30天'并计算皮尔逊相关性 . 然后将该值存储在新的向量中 . 然后,重复整个时间序列的计算 . 这在Excel中是一项微不足道的任务,所以我确信它可以在R中完成 . 我不知道使用的方法 . -
6 votes1 answers844 views
如何在推荐系统中的Pearson相关用户 - 用户相似度矩阵中处理NaN?
我正在从用户评级数据(特别是MovieLens100K数据)生成用户 - 用户相似度矩阵 . 计算相关性导致一些NaN值 . 我在一个较小的数据集中测试过: 用户 - 项目评级矩阵 I1 I2 I3 I4 U1 4 0 5 5 U2 4 2 1 0 U3 3 0 2 4 U4 4 4 0 0 用户 - 用户Pearson相关相似度矩阵 U1 U2... -
0 votes0 answers1860 views
条件为R的两个数据集之间的比率
我有两个数据集 . 一个数据集是染料,它有两列时间和染料,另一个数据集是sed . Sed数据集也有时间和sed . 然后我想从sed与染料的比例中找到新的变量new . 我想找到这样的比例:如果染料或sed为零,那么new将为零,否则将new计算为sed / dye . 我到目前为止所使用的代码如下: dyei94j66 <- read.table("i94 j66 dye t... -
4 votes1 answers708 views
R中的ddply:对于每个组,查找特定变量的出现百分比
我有一个数据集,其中包含两列,user_type和滞后响应时间(以天为单位): user_type imp_date lag Consumer 20130613 1 Consumer 20130612 2 Consumer 20130611 3 Consumer 20130612 ... -
0 votes0 answers1082 views
R数据帧中变量之间的水平相关
我想计算两组数字之间的相关分数,但这些数字在每一行内 背景是我正在编译一个推荐系统,使用PCA为每个用户和每个项目给出每个派生特征的分数(在这种情况下为1,2,3) user item user_score_1 user_score_2 user_score_3 item_score_1 item_score_2 item_score_3 A 1 0.5 0... -
3 votes1 answers184 views
R中不同时间序列数据值的互相关
我有一个5个地方的时间序列数据(以日格式),为期15天,存储为 matrix . 数据结构是 meter_daywise<-structure(c(24.4745528484842, 21.5936510486629, 58.9120896540103, 49.4188338105575, 568.791971631185, 27.1682608244523, 23.3482757939... -
0 votes1 answers1863 views
根据行时间戳之间的差异,将表中的每一行与另一个表中的行匹配
我有两个不均匀间隔的时间序列,每个时间序列都测量同一系统的不同属性 . 两个系列的数据点不会同时采样,并且系列的长度不同 . 我想将系列A中的每一行与最接近它的B行匹配 . 我想到的是向A添加一列,其中包含B中最近行的索引 . 两个系列都有一个在Unix时间内测量的时间列(例如,1459719755) . 例如,给定两个数据集 a time 2 1459719755 4 1459719772... -
2 votes1 answers1336 views
如果我在R中有纬度和经度,我怎样才能找到美国郡最近的县?
我知道函数 sqrt((x1-x0)^2 + (y1-y0)^2) 来找到距离 . 但我有两列纬度和经度,我想找到4个最接近的县之间的差异 . 我需要循环吗?我还有一个百分比专栏 . 每个县都有一个百分比 . 所以,我需要找到最近县之间的百分比差异 . -
0 votes0 answers1057 views
在r或python中查找多维数据集之间的相似性
我有许多具有部分匹配列的多维数据集 . 有没有办法计算它们之间的相似之处?在谷歌和stackoverflow上进行了一些搜索,但我能找到的只是计算列或单维数据集之间相似性的帖子 . ex)找到Data1和2,Data1和3,Data2和3之间的相似性 . Data1 = b c e f h 1 3 2 3 1 3 2 1 3 2 ... -
0 votes1 answers385 views
在另一个函数中定义聚合函数时出现ddply错误
以下几乎最小代码的要点是在函数f中应用ddply,其中ddply的聚合函数(helper)在f的定义中是自定义的 . 不幸的是,我不明白为什么采购整个代码段会产生eval中的错误(expr,envir,enclos):找不到函数"helper" . 当辅助函数独立于函数f运行时,代码有效 . 当我用 by 的未注释调用替换 ddply 调用时,代码运行没有错误 . 您能解释错误... -
-1 votes1 answers1696 views
用dplyr编写自定义函数
我有一个函数来计算“保留”和“添加”列到我的数据框,基于每行中“obsnum”的值(见下面的函数),user_id . 它使用ddply正常工作,但ddply太占用内存,所以有人建议我使用dplyr包 . 这是我在dplyr中使用此函数时收到的错误消息 . eval中的错误(expr,envir,enclos):“function”的无效形式参数列表 我是dplyr的新手,所以我不知道我的函数格式... -
0 votes0 answers932 views
eval中的错误(expr,envir,enclos):找不到对象'LowSD4temp' -Dplyr&ggplot . 以前工作过
我是R的新手并且已经查看以下内容以尝试找到解决方案: ggplot2 Error in eval(expr, envir, enclos) : object not found ggplot2 Error in eval(expr, envir, enclos) : object 'd' not found ggplot call inside a function: Error in... -
0 votes0 answers1990 views
改变每个组的top_n值
我想总结每组 df 中的top_n值,但我遇到了错误 . 我想在执行此过程时保留其他列,所以 summarise 函数对我来说不是优选的! set.seed(123) df<- data.frame( x = runif(60), grp = gl(6, 10) ) # x grp # 1 0.28757752 1 # 2 ... -
0 votes1 answers511 views
如何通过在一列上分组和连接来折叠数据帧
我有一个包含20列的数据框 . 最后一列是文本字段 . 我想按前19列分组,并连接最后一个文本列的值 . 我一直试图通过使用dplyr实现这一目的,如下所示: mydf %>% group_by(col1, col2, col3, ... col19) %>% summarise(alltasks = c(col20)) 但这不起作用并返回此错误消息: eval中的错误(替换(ex... -
1 votes3 answers425 views
dplyr中的变量名冲突
我试图使用dplyr计算data.frame中包含的变量的移动中位数 . 我遇到的问题是我传递给rollapply()的函数与原始data.frame中的变量同名 . 例如: df <- data.frame(median = seq(1:100)) df %>% mutate(ln_median = log(median)) %>% mutate(ln_median_... -
71 votes2 answers458 views
dplyr可以汇总几个变量而不列出每个变量吗? [重复]
这个问题在这里已有答案: Aggregate / summarize multiple variables per group (e.g. sum, mean) 5个答案 dplyr非常快,但我想知道我是否遗漏了一些东西:是否有可能总结出几个变量 . 例如: library(dplyr) library(reshape2) (df=dput(structure(list(sex = stru... -
1 votes3 answers879 views
使用dplyr汇总值并在数据框中存储为向量?
我有一个简单的data.frame,如下所示: Group Person Score_1 Score_2 Score_3 1 1 90 80 79 1 2 74 83 28 1 3 74 94 89 2 ... -
1 votes3 answers1766 views
使用dplyr汇总逻辑值并按多个因素进行分组
我想按两列(部门和产品线)对数据框进行分组,并输出一个新数据框,其中包含每个部门和产品线的选定逻辑值的计数 . 原始数据的结构如下: product department line date apple A big 201707 cherry A midlle 201609 potato B midlle 201801 peach C small ... -
0 votes1 answers621 views
使用R中的GGally包(和ggplot2)包不能将一个平行坐标图叠加到另一个上
我正在使用R中GGally包的ggparcoord()函数来创建虹膜数据的并行坐标图(存在于R中) . 我使用了以下代码 ggparcoord(data=iris, columns=1:4 , groupColumn=5,alpha=I(0.3))+theme_light()+theme(legend.position="none") . 现在我分别为三个物种(setosa,... -
2 votes1 answers240 views
purrr列表评估陌生感
如果列表有或没有 Headers ,似乎purrr函数的评估方式不同,但为什么呢?这只是“其中一件事”吗? 例: func_b <- function(x,y,z) paste(x,y,z) ## Works as expected pmap(list(iris$Sepal.Length, iris$Sepal.Width, iris$Petal.Length), func_b) %>...