我有一个看起来像这样的数据集,虽然真实的例子有更多的列 . 只有一行(目前) .
Results <- structure(list(PCV2_CT_Min = 7.15, PPV2_CT_Min = 11.4, PPV3_CT_Min = 8.6,
PPV4_CT_Min = 16.3, PPV_CT_Min = 29.58, NI_BOCA_CT_Min = 20.51,
SW_BOCA_CT_Min = 23.49, PCV2_CT_Count = 695L, PPV2_CT_Count = 695L,
PPV3_CT_Count = 695L, PPV4_CT_Count = 695L, PPV_CT_Count = 695L,
NI_BOCA_CT_Count = 695L, SW_BOCA_CT_Count = 695L),
.Names = c("PCV2_CT_Min", "PPV2_CT_Min", "PPV3_CT_Min", "PPV4_CT_Min", "PPV_CT_Min", "NI_BOCA_CT_Min", "SW_BOCA_CT_Min", "PCV2_CT_Count", "PPV2_CT_Count", "PPV3_CT_Count", "PPV4_CT_Count", "PPV_CT_Count", "NI_BOCA_CT_Count", "SW_BOCA_CT_Count"),
row.names = c(NA, -1L), class = c("tbl_df", "tbl", "data.frame"))
每个列名称由变量名称和函数名称组成,因此PCV2_CT_Min是PCV2病毒测试的最小计数(CT); PCV_CT_Count是测试动物的总数,依此类推 .
它是通过在另一个数据集上运行来自dplyr的summarize_all,对猪进行单独的病毒测试,使用更长版本的代码:
V <- Pig %>%
select(ends_with('CT')) %>%
summarise_all(funs(Min = min(.,na.rm=TRUE),
Count = n()))
在实际的例子中,有更多的函数,它们采用不同的参数 . 我想最终得到的是这样的数据帧: -
Parameter PCV_CT PPV2_CT PPV3_CT PPV4_CT PPV_CT NI_BOCA_CT SW_BOCA_CT
Min 7.15 11.4 8.6 16.3 29.58 20.51 23.49
Count 695 695 695 695 695 695 695
我曾经想过有一种简单的方法可以做到这一点,也许使用类似于tidyr的单独命令,但是我绞尽脑汁,搜索SO,以及更广泛的网络,并查看了tidyr文档,但都无济于事 . 我认为答案应该是显而易见的,但我看不出来 .
我将不胜感激任何和所有的帮助 .
2 回答
您需要
gather
所有列,separate
将您想要的相关名称中的名称,然后spread
将数据恢复为宽格式:要分割的更一般的正则表达式可能是
regex = "(.*)_(.*)"
,如果您使用了多个其他摘要函数,这可能很有用 .我知道您有理由以这种形式提供您的数据,但这与您实际应该看到的内容有点相反 . 理想情况下,让您的列包含所有相同类型度量的数据更有意义....
使用基础R /
reshape2
的两个不同想法可能是:Split and stack:
Melt and dcast: