首页 文章

使用r进行数据处理

提问于
浏览
1

我有一个文件.ped包含几个列,我想从中提取信息 . 这是我的数据样本(没有 Headers ):

1  1  1 
1  2  1
2  3  2
3  4  1
3  5  2
...

第一列表示ID家族,第二列表示ID个体,第三列表示个体的性别 .

我把这个表读作数据帧

ped <- read.table("pedigree.ped", header=FALSE)

我如何计算存在的家庭数量(一个家庭可以出现多次,我想将它们视为一个)?我有一个性别列,其中1个指定男性和2个女性,我如何在数据集中获得男性和女性的分布?

如果你能提供一些代码,我是R的新手!

提前致谢 .

2 回答

  • 2

    由于你是R的新手,我建议先考虑excel . 您要求的操作非常简单,可以在Excel中完成 .

    如果你想使用R,那么请查看data.frame索引,子集等 .

    如果您熟悉SQL,请查看sqldf package

    家庭数量:

    numFamilies <- length(unique(ped[,1]))
    

    男性和女性人数:

    numMales <- sum(ped[,3] == 1)
    numFemales <- sum(ped[,3] == 2)
    
  • 2

    尝试使用它来探索数据:

    For family:
    table(ped[,1])
    
    For sex: 
    table(ped[,3])
    

相关问题