首页 文章
  • 0 votes
    0 answers
    342 views

    缺少foreach和Parallel的结果

    由于前一个脚本中的内存限制,我在类似的问题中按照此建议对其进行了修改(不提供比工作人员更多的数据 - reading global variables using foreach in R) . 不幸的是,现在我正在努力寻找缺失的结果 . 该脚本遍历1.9M列矩阵,处理每一列并返回一行数据帧(来自foreach的rbind函数组合每一行) . 但是,在打印结果时,行数(结果)少于列数,并且每次运...
  • 1 votes
    2 answers
    622 views

    在R中的数据框的每个元素上应用带参数的函数

    我有一个包含多个列的数据框 . 一列的条目值可以是负数或正数 . 我想对此列中的每个条目应用一个函数,以便在它为负数时将其设置为0,否则该值应保持不变 . 我的想法如下: df <- data.frame("ID" = c(1,2,3,4,5),"value" = c(1,-1,0,2,-2)) f <- function(value) { ...
  • 1 votes
    2 answers
    342 views

    R中的录音

    我在R for Windows中玩一些音频和声音包(我的是Win7 x64) . 我尝试使用record()从麦克风录制时出现问题: 它只能记录一次然后再记录一些,直到重启整个控制台 一旦录制声音,它可以保存但不能播放()从上面录制的 文件无法通过音频读取,但是由于'incomplete wave file'而调整了 以及以下“文件名”不起作用 filename = paste...
  • 0 votes
    2 answers
    512 views

    在R中将%H:%M:%S添加为as.POSIXct格式

    这看起来像是微不足道的问题,但我无法使其发挥作用 . 我只需要将午夜转换为POSIXct格式,还可以使用小时,分钟和秒,就像这样: nextDay_t <- strptime(paste0(as.character(Sys.Date() + 1)," 00:00:00"), format = "%Y-%m-%d %H:%M:%S") nextDay_t...
  • 3 votes
    3 answers
    1235 views

    覆盖[.data.frame以默认删除未使用的因子级别

    在子集化出现时丢弃未使用的因子级别的问题before . 常见的解决方案包括通过声明尽可能使用字符向量 options(stringsAsFactors = FALSE) 但是,有时候,有序因子对于绘图是必要的,在这种情况下,我们可以使用 droplevels 之类的便利函数来为 subset 创建一个包装器: subsetDrop <- function(...){droplevels(...
  • 7 votes
    2 answers
    1816 views

    子集单个因子的所有级别

    有没有办法在一个干净的猛扑中将所有级别的单个因子分组? 案例:假设您有一个数据框,其中一列是一个因子(数据$因子),并且您想要创建仅包含一个因子级别的子集数据框 . 当通过编写单独的子集命令存在少量因素时,这很容易做到 . 但是,如果你有很多级别(例如50级)怎么办?在这种情况下是否有命令或巧妙的方法来创建所有子集而无需编写50个子集命令?
  • 8 votes
    6 answers
    210 views

    优雅的方式从数据框中删除稀有因子水平

    我想按因子对数据帧进行子集化 . 我只想保留高于特定频率的因子水平 . df <- data.frame(factor = c(rep("a",5),rep("b",5),rep("c",2)), variable = rnorm(12)) 此代码创建数据框: factor variable 1 a -1.559...
  • 2 votes
    2 answers
    1078 views

    R - 仅显示数据帧子集中使用的级别

    我有一个相当大的数据框,其中有一个具有很多级别(超过4,000)的因子 . 我在同一个数据框中有另一列我用作参考,我想要找到的是当参考列为NA时的水平子集 . 我正在使用的第一步是 subsetrows <- which(is.na(mydata$reference)) 但是之后我就被卡住了 . 我想要像 levels(mydata[subsetrows,mydata$factor]) 这样...
  • 1 votes
    1 answers
    840 views

    为每个因子级别设置数据框[重复]

    这个问题在这里已有答案: Split/subset a data frame by factors in one column [duplicate] 1回答 给定下面的数据集 red_wine_data ,如何创建列表 l ,其中包含 unique(red_wine_data$condition) 中所有值的以下四个子集化数据帧? I'm looking for a flexible an...
  • 0 votes
    1 answers
    329 views

    按因子子集后R空数据帧

    我需要根据一个因子变量的内容对我的数据进行子集化 . 我尝试用子集做到这一点: new <- subset(data, original$Group1=="SALAD") 数据已经是较大数据帧的子集,原始我有因子变量,应该识别所需的行 . 这适用于因子变量的一个级别,但(我真的不明白为什么!!)当我用其他因子级别"BREAD"它创建数据框但是说“ n...
  • 2 votes
    1 answers
    303 views

    HT在数据帧中创建一个新的向量,用于获取现有向量的相关性

    我有两个索引的时间序列,每行代表同一天的收盘价 . 我想去第30行并回顾过去30天'并计算皮尔逊相关性 . 然后将该值存储在新的向量中 . 然后,重复整个时间序列的计算 . 这在Excel中是一项微不足道的任务,所以我确信它可以在R中完成 . 我不知道使用的方法 .
  • 6 votes
    1 answers
    844 views

    如何在推荐系统中的Pearson相关用户 - 用户相似度矩阵中处理NaN?

    我正在从用户评级数据(特别是MovieLens100K数据)生成用户 - 用户相似度矩阵 . 计算相关性导致一些NaN值 . 我在一个较小的数据集中测试过: 用户 - 项目评级矩阵 I1 I2 I3 I4 U1 4 0 5 5 U2 4 2 1 0 U3 3 0 2 4 U4 4 4 0 0 用户 - 用户Pearson相关相似度矩阵 U1 U2...
  • 0 votes
    0 answers
    1860 views

    条件为R的两个数据集之间的比率

    我有两个数据集 . 一个数据集是染料,它有两列时间和染料,另一个数据集是sed . Sed数据集也有时间和sed . 然后我想从sed与染料的比例中找到新的变量new . 我想找到这样的比例:如果染料或sed为零,那么new将为零,否则将new计算为sed / dye . 我到目前为止所使用的代码如下: dyei94j66 <- read.table("i94 j66 dye t...
  • 4 votes
    1 answers
    708 views

    R中的ddply:对于每个组,查找特定变量的出现百分比

    我有一个数据集,其中包含两列,user_type和滞后响应时间(以天为单位): user_type imp_date lag Consumer 20130613 1 Consumer 20130612 2 Consumer 20130611 3 Consumer 20130612 ...
  • 0 votes
    0 answers
    1082 views

    R数据帧中变量之间的水平相关

    我想计算两组数字之间的相关分数,但这些数字在每一行内 背景是我正在编译一个推荐系统,使用PCA为每个用户和每个项目给出每个派生特征的分数(在这种情况下为1,2,3) user item user_score_1 user_score_2 user_score_3 item_score_1 item_score_2 item_score_3 A 1 0.5 0...
  • 3 votes
    1 answers
    184 views

    R中不同时间序列数据值的互相关

    我有一个5个地方的时间序列数据(以日格式),为期15天,存储为 matrix . 数据结构是 meter_daywise<-structure(c(24.4745528484842, 21.5936510486629, 58.9120896540103, 49.4188338105575, 568.791971631185, 27.1682608244523, 23.3482757939...
  • 0 votes
    1 answers
    1863 views

    根据行时间戳之间的差异,将表中的每一行与另一个表中的行匹配

    我有两个不均匀间隔的时间序列,每个时间序列都测量同一系统的不同属性 . 两个系列的数据点不会同时采样,并且系列的长度不同 . 我想将系列A中的每一行与最接近它的B行匹配 . 我想到的是向A添加一列,其中包含B中最近行的索引 . 两个系列都有一个在Unix时间内测量的时间列(例如,1459719755) . 例如,给定两个数据集 a time 2 1459719755 4 1459719772...
  • 2 votes
    1 answers
    1336 views

    如果我在R中有纬度和经度,我怎样才能找到美国郡最近的县?

    我知道函数 sqrt((x1-x0)^2 + (y1-y0)^2) 来找到距离 . 但我有两列纬度和经度,我想找到4个最接近的县之间的差异 . 我需要循环吗?我还有一个百分比专栏 . 每个县都有一个百分比 . 所以,我需要找到最近县之间的百分比差异 .
  • 0 votes
    0 answers
    1057 views

    在r或python中查找多维数据集之间的相似性

    我有许多具有部分匹配列的多维数据集 . 有没有办法计算它们之间的相似之处?在谷歌和stackoverflow上进行了一些搜索,但我能找到的只是计算列或单维数据集之间相似性的帖子 . ex)找到Data1和2,Data1和3,Data2和3之间的相似性 . Data1 = b c e f h 1 3 2 3 1 3 2 1 3 2 ...
  • 0 votes
    1 answers
    385 views

    在另一个函数中定义聚合函数时出现ddply错误

    以下几乎最小代码的要点是在函数f中应用ddply,其中ddply的聚合函数(helper)在f的定义中是自定义的 . 不幸的是,我不明白为什么采购整个代码段会产生eval中的错误(expr,envir,enclos):找不到函数"helper" . 当辅助函数独立于函数f运行时,代码有效 . 当我用 by 的未注释调用替换 ddply 调用时,代码运行没有错误 . 您能解释错误...
  • -1 votes
    1 answers
    1696 views

    用dplyr编写自定义函数

    我有一个函数来计算“保留”和“添加”列到我的数据框,基于每行中“obsnum”的值(见下面的函数),user_id . 它使用ddply正常工作,但ddply太占用内存,所以有人建议我使用dplyr包 . 这是我在dplyr中使用此函数时收到的错误消息 . eval中的错误(expr,envir,enclos):“function”的无效形式参数列表 我是dplyr的新手,所以我不知道我的函数格式...
  • 0 votes
    0 answers
    932 views

    eval中的错误(expr,envir,enclos):找不到对象'LowSD4temp' -Dplyr&ggplot . 以前工作过

    我是R的新手并且已经查看以下内容以尝试找到解决方案: ggplot2 Error in eval(expr, envir, enclos) : object not found ggplot2 Error in eval(expr, envir, enclos) : object 'd' not found ggplot call inside a function: Error in...
  • 0 votes
    0 answers
    1990 views

    改变每个组的top_n值

    我想总结每组 df 中的top_n值,但我遇到了错误 . 我想在执行此过程时保留其他列,所以 summarise 函数对我来说不是优选的! set.seed(123) df<- data.frame( x = runif(60), grp = gl(6, 10) ) # x grp # 1 0.28757752 1 # 2 ...
  • 0 votes
    1 answers
    511 views

    如何通过在一列上分组和连接来折叠数据帧

    我有一个包含20列的数据框 . 最后一列是文本字段 . 我想按前19列分组,并连接最后一个文本列的值 . 我一直试图通过使用dplyr实现这一目的,如下所示: mydf %>% group_by(col1, col2, col3, ... col19) %>% summarise(alltasks = c(col20)) 但这不起作用并返回此错误消息: eval中的错误(替换(ex...
  • 1 votes
    3 answers
    425 views

    dplyr中的变量名冲突

    我试图使用dplyr计算data.frame中包含的变量的移动中位数 . 我遇到的问题是我传递给rollapply()的函数与原始data.frame中的变量同名 . 例如: df <- data.frame(median = seq(1:100)) df %>% mutate(ln_median = log(median)) %>% mutate(ln_median_...
  • 71 votes
    2 answers
    458 views

    dplyr可以汇总几个变量而不列出每个变量吗? [重复]

    这个问题在这里已有答案: Aggregate / summarize multiple variables per group (e.g. sum, mean) 5个答案 dplyr非常快,但我想知道我是否遗漏了一些东西:是否有可能总结出几个变量 . 例如: library(dplyr) library(reshape2) (df=dput(structure(list(sex = stru...
  • 1 votes
    3 answers
    879 views

    使用dplyr汇总值并在数据框中存储为向量?

    我有一个简单的data.frame,如下所示: Group Person Score_1 Score_2 Score_3 1 1 90 80 79 1 2 74 83 28 1 3 74 94 89 2 ...
  • 1 votes
    3 answers
    1766 views

    使用dplyr汇总逻辑值并按多个因素进行分组

    我想按两列(部门和产品线)对数据框进行分组,并输出一个新数据框,其中包含每个部门和产品线的选定逻辑值的计数 . 原始数据的结构如下: product department line date apple A big 201707 cherry A midlle 201609 potato B midlle 201801 peach C small ...
  • 0 votes
    1 answers
    621 views

    使用R中的GGally包(和ggplot2)包不能将一个平行坐标图叠加到另一个上

    我正在使用R中GGally包的ggparcoord()函数来创建虹膜数据的并行坐标图(存在于R中) . 我使用了以下代码 ggparcoord(data=iris, columns=1:4 , groupColumn=5,alpha=I(0.3))+theme_light()+theme(legend.position="none") . 现在我分别为三个物种(setosa,...
  • 2 votes
    1 answers
    240 views

    purrr列表评估陌生感

    如果列表有或没有 Headers ,似乎purrr函数的评估方式不同,但为什么呢?这只是“其中一件事”吗? 例: func_b <- function(x,y,z) paste(x,y,z) ## Works as expected pmap(list(iris$Sepal.Length, iris$Sepal.Width, iris$Petal.Length), func_b) %&gt...

热门问题