我想按因子对数据帧进行子集化 . 我只想保留高于特定频率的因子水平 .
df <- data.frame(factor = c(rep("a",5),rep("b",5),rep("c",2)), variable = rnorm(12))
此代码创建数据框:
factor variable
1 a -1.55902013
2 a 0.22355431
3 a -1.52195456
4 a -0.32842689
5 a 0.85650212
6 b 0.00962240
7 b -0.06621508
8 b -1.41347823
9 b 0.08969098
10 b 1.31565582
11 c -1.26141417
12 c -0.33364069
而且我想降低重复次数少于5次的因子水平 . 我开发了一个for循环,它正在工作:
for (i in 1:length(levels(df$factor))){
if(table(df$factor)[i] < 5){
df.new <- df[df$factor != names(table(df$factor))[i],]
}
}
但是,存在更快更漂亮的解决方案吗?
6 回答
也许加入一个过滤的因子计数:
尝试使用基本功能...
关于什么
这对我有用: