> df <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9))
> df
A B C D E F
1 1 3 5 7 8 9
2 2 4 6 7 8 9
> df[,c(1,2,5)]
A B E
1 1 3 8
2 2 4 8
> df[,c("A","B","E")]
A B E
1 1 3 8
2 2 4 8
# data for reproducible example
# (and to avoid confusion from trying to subset `stats::df`)
df <- setNames(data.frame(as.list(1:5)), LETTERS[1:5])
# subset
df[,c("A","B","E")]
8 回答
有两个明显的选择:约书亚乌尔里希的
df[,c("A","B","E")]
或如在
仅出于某种原因
为我工作 . 所有上述语法都产生了“未定义的列选择” .
再次使用dplyr,其中df1是您的原始数据框:
使用dplyr包,如果您的data.frame被称为
df1
:这也可以在没有
%>%
管道的情况下编写:[
和子集不可替代:如果只选择了一列,
[
会返回一个向量 .这是subset()函数的作用:
您可以使用列名称向量进行子集化 . 我非常喜欢这种方法,而不是那些将列名称视为对象名称(例如
subset()
)的方法,尤其是在函数,包或应用程序中进行编程时 .您还可以使用
sqldf
包对R数据帧执行选择,如下所示:这给出了一个数据帧
df1
,其列为:A,B,E .