-
4 votesanswersviews
R dplyr:更改具有特定名称的列的行值
我有一个数据框 . 其中一列具有字符串值,我想将其用作其他列名称的条件 . 例如, df <- data.frame( cond=c("a","b"), aVal=c(1 , 2), bVal=c(3 , 4) ) 我想逐行检查df中每列的名称,如果colname不以cond开头,那么我想将该列的值设置为0.这里的预期输出将是 . #... -
0 votesanswersviews
重塑熊猫中的表格
下面是我创建合并多个查询日志数据帧的数据框的摘录: keyword hits date average time 1 the cat sat on 10 10-Jan 10 2 who is the sea 5 ... -
0 votesanswersviews
将groupby列作为Python Pandas中的新数据帧返回
输入:包含5列的CSV . 预期输出:'col1','col2','col3'的独特组合 . Sample Input: col1 col2 col3 col4 col5 0 A B C 11 30 1 A B C 52 10 2 B C A 15 14 3 B C A 1 91 ... -
0 votesanswersviews
HoltWinter预测,行中有重复项目
我试图预测90个不同的项目和不同的购买日期,数据集的示例如下 ret <- data.frame(Item_Name = c('Red bottle','Red Bottle','Red Bottle','Red Bottle', 'Green Mouse', 'Green Mouse','Green Mouse','Yellow Spoon','Yellow Spoon','Yellow... -
1 votesanswersviews
从现有数据集创建时间序列
我想将以下数据转换为时间序列 - 所以我可以使用 autoplot() . 我该如何做到这一点,以便“年份”列在x轴上? (我知道日期的格式必须是01-01-2006,我没关系): Team PTS W GF GA S SA Year NSH 88 38 214 233 2382 2365 2014 NSH 104 47 226 ... -
78 votesanswersviews
如何将数据分成3组(训练,验证和测试)?
我有一个熊猫数据帧,我希望把它分成3组 . 我知道从 sklearn.cross_validation 使用train_test_split,可以将数据分成两组(训练和测试) . 但是,我无法获得原始数据的索引 . 我知道解决方法是使用 train_test_split 两次并以某种方式调整索引 . 但有没有更标准/内置的方法将数据分成3组而不是2组? -
3 votesanswersviews
如何使用dplyr按因子操作data.frame
df <- data.frame(a=factor(c(1,1,2,2,3,3) ), b=c(1,1, 10,10, 20,20) ) a b 1 1 1 2 1 1 3 2 10 4 2 10 5 3 20 6 3 20 我想按列a拆分数据框,计算每组中的b / sum(b),并将结果放在c列中 . 有了plyr,我可以这样做: fun <- function(x){... -
1 votesanswersviews
如何将列中的所有数据移动到单个列(不合并),然后拆分为R中的新列?
我使用Excel创建了一个数据噩梦来进行项目数据输入 . 我有两个电子表格,总共有20个标签 . 每个选项卡中的数据结构相同 . 我已设法创建一个CSV文件,其中一个电子表格中的一个标签中的数据合并为一个结构,我希望可以将其导入R数据帧,然后重新构造成一个有意义的格式 . 每个标签有大约120列(取决于采样日期的数量)和100行(取决于观察到的物种数) . 每行是一种植物,每列包含特定日期和特定位... -
3 votesanswersviews
如何根据数据的整体顺序更改特定的分类变量
我每五天收集一次关于植物发育或物候学的数据(使用分类变量“代码”编码),沿着横断面划分为78个连续区段 . 每个物种都在每个区段的横断面上进行调查 . 我的研究重复了100年前的历史研究,我保留了最初的物候编码方案,但没有考虑如何在夏天之后分析数据! 我在收集数据时没有考虑的问题是代码遵循一个序列,其中一个代码在夏天的早晚出现 . 具体来说,代码是: b1 = single flower b2 =... -
1 votesanswersviews
如何使用循环有条件地在新变量中创建值
我每五天收集一次关于植物发育或物候学的数据(使用分类变量“代码”编码),沿着横断面划分为78个连续区段 . 每个物种都在每个区段的横断面上进行调查 . 这项努力正在重复100年前的一项研究! 我想重新编码我的数据集,以克服原始研究编码系统的不足 . 原始编码系统(用于植物开花期): K = flower bud b1 = single flower b2 = sparse flowers (two... -
2 votesanswersviews
将树转换为R中的data.frame
在我自己编写之前,我想知道是否有一个功能已经做到了: 我有一个树结构,实现为嵌套的列表列表 . 每个节点都有一些内部数据(例如它的名字),以及一个儿子列表,它们又包含一些节点数据和另一个儿子列表等 . 树是完整的,即所有分支都已满并且相同的长度 . 我想遍历树以创建一个data.frame,其中每行包含树的一个分支上的完整数据,包括所有分支 所以对于一个在根下面有2个1级节点的树(名为a,b),每... -
0 votesanswersviews
使用R中的矩阵将标识符与存储在列表中的向量相关联
背景 我使用R.matlab的read.mat()函数将一个数据集从MATLAB导入到R中 . 它给了我一个三维的列表数组,每个列表中都有一个矩阵 . 以下是其输出的一些示例 . , , 1 [,1] experiment 5 reader "A" time Numeric,20... -
0 votesanswersviews
如何颠倒列表中data.frame对象的顺序,让它们具有相同的模式? [重复]
这个问题在这里已有答案: How to group set of data.frame objects in nested list with different order? 1回答 我有三个列表,其中包含data.frame对象,但顺序非常不同 . 我想让它们具有相同的顺序,如list1,list2或list 3.如何反转data.frame对象在不同列表中的顺序具有相同的模式/顺序?有没... -
0 votesanswersviews
从R Subscript中设计的其他人的包中调试修改后的函数
我正在尝试调试从包中删除的三个函数集 . 主要功能scrape.game.results应该从ESPN的网站上抓取NCAA篮球统计数据,然后将它们格式化为一个数据框,该数据框可以被包中的其他功能读取 . 但是,该功能是为了只能访问2002年到2017年的数据而构建的,因此我修改了它以允许它从2018年获得今年三月疯狂锦标赛的数据 . n.scrpgmrslts <- function (ye... -
1 votesanswersviews
如何根据另一个数据框中的row.names来订购data.frame?
基本上,我有一个初始 data.frame ,其中我使用参与者名称为 row.names . 由于各种原因,我不得不堆叠,然后以长格式合并数据,然后基于因子变量,我只选择了一部分数据 . 然后我聚合了这个,所以我再次获得广泛的数据,参与者为row.names . 但是,顺序不一样 . 因此,如果我想用新数据 cbind 原始宽数据,它会弄乱我的数据,因为 row.names 的顺序是不同的 . ... -
4 votesanswersviews
基于列类的列表内的子集数据帧
我有一个由数据帧组成的非常大的列表,列表的每个元素都是不同的数据帧,其中每列由不同类型的变量和不同长度的数据帧组成 . 我想在这个列表中对数据帧进行子集化,并且只保留那些列具有“整数”或“数字”类,同时保持数据帧结构(所以看似没有“lapply”) . MRE如下: x1 <- c(1,2,3,4) y1 <- c(letters[1:4]) z1 <- as.integer(c... -
1 votesanswersviews
根据父变量名创建数据框列表
我正在尝试获取数据帧并将其转换为包含特定列的数据帧列表 . dfs <- data.frame(c('apple', 'apple', 'apple', 'apple'), c('pear','pear','pear','pear'),c('5.30','5.50','5.12','5.63'),c('2.12','2.30','2.40','2.13'),c('5.31','5.55','... -
1 votesanswersviews
从excel电子表格中提取未按列组织但重复每x行的数据
我正在尝试从excel电子表格中提取信息,该电子表格不按列而是按行排列 . 关键点: 将Excel电子表格转换为csv,产生2023行和5列 . 读取此文件并在data.frame中转换,称为"test" . 尝试创建一个包含2个循环的data.frame . 结果 There were 50 or more warnings (use warnings()... -
0 votesanswersviews
我可以与从数据框中获取的参数进行汇总吗?
我想在循环中执行不同的聚合以应用于我的数据的不同行子集,但实现起来似乎很棘手(如果可能的话): t <- data.frame(agg=c(list("field1"=field1, "field2"=field2), ...), fun=c(mean, ...)) f <- function(x) { f... -
0 votesanswersviews
从嵌套列表中提取数据并返回data.frame
dput(head(z2,10)) structure(list(name = list("Mary"), department = structure(list( name = list("English")), .Names = "name", id = "300"), department = stru... -
16 votesanswersviews
从数据框创建摘要统计表
我有以下5个变量的29个观测数据框(df): age height_seca1 height_chad1 height_DL weight_alog1 1 19 1800 1797 180 70 2 19 1682 1670 167 69 3 21 ... -
-7 votesanswersviews
关于R数据框架的摘要统计[已结束]
亲爱的,如果我需要总结R中的数据框以提供摘要统计信息,如附带的屏幕截图我该怎么做 . 请欣赏您的平常支持 . -
-2 votesanswersviews
如何使用R 3.3.2根据列值将索引列添加到数据帧? [重复]
这个问题在这里已有答案: Add a “rank” column to a data frame 5个答案 Numbering rows within groups in a data frame 5个答案 问题 如果在列中给出分类值,如何在R的数据框中创建索引列? 换句话说,假设我们有一个如下数据帧: id cat 1 A 2 A 3 A 4 B 5 B 6 C... -
0 votesanswersviews
R中的彩色条形图基于固定比例
我在R中有三列的数据帧, label 表示x轴标签, values 表示条形图的条形高度,以及 color 值 . 例如: label value color 1 Label1 0.9645477 0.434680035 2 Label2 1.0816859 0.070992644 3 Label3 1.0043559 0.923586653 4 Label4 1.00... -
0 votesanswersviews
删除pyspark中列中的逗号
我的DataFrame中有两列第一列和第二列 . 两列都包含空单元格 | **ID** First |Second| |----------|---------|------| | 1 | Toys | | | | | | |--------------------|------|... -
2 votesanswersviews
使用scala基于Spark Data DataFrame中现有列的聚合添加新列
我有一个像下面这样的DataFrame . 我需要根据现有列创建一个新列 . col1 col2 a 1 a 2 b 1 c 1 d 1 d 2 输出数据框看起来像这样 col1 col2 col3 col4 a 1 1 2 a 2 1 2 b 1 0 1 c ... -
0 votesanswersviews
如何在spark java中的Left outer join之后从DataFrame中删除重复记录
输入数据如下inpu1为{col1:“val1”,col2:“val2”,col3:“val3”,.....} input2为acctno ^^ email_id我做左外连接加入这个2数据集给出最终输出为{col1:“val1”,col2:“val2”,col3:“val3”,col4:email_id}请找到我到目前为止所做的以下代码片段 . DataFrame DF1 = sqlCtx.jso... -
1 votesanswersviews
使用groupby对象--pandas编辑数据框条目
考虑以下数据帧: index count signal 1 1 1 2 1 NAN 3 1 NAN 4 1 -1 5 1 NAN 6 ... -
19 votesanswersviews
熊猫:将组中的值向下移动一行
我有一个Pandas数据帧,我想创建一个新列,其值是另一列的值,向下移动一行 . 最后一行应该显示NaN . 问题是我希望按组执行此操作,每组的最后一行显示NaN . 没有组的最后一行“窃取”来自恰好在数据帧中相邻的组的值 . 我试图实施是非常可耻的,所以我显然误解了一些基本的东西 . df['B_shifted'] = df.groupby(['A'])['B'].transform(lambd... -
3 votesanswersviews
将行附加到pandas中的组
我正在尝试在pandas数据帧中为每个组添加一些NaN行 . 基本上我想将每组填充为5行长 . 订购很重要 . 我有: Rank id 0 1 a 1 2 a 2 3 a 3 4 a 4 5 a 5 1 c 6 2 c 7 1 e 8 2 e 9 3 e 我想要: Rank id 0 1 a 1 2 a 2 3 ...