我有一个文件.ped包含几个列,我想从中提取信息 . 这是我的数据样本(没有 Headers ):
1 1 1
1 2 1
2 3 2
3 4 1
3 5 2
...
第一列表示ID家族,第二列表示ID个体,第三列表示个体的性别 .
我把这个表读作数据帧
ped <- read.table("pedigree.ped", header=FALSE)
我如何计算存在的家庭数量(一个家庭可以出现多次,我想将它们视为一个)?我有一个性别列,其中1个指定男性和2个女性,我如何在数据集中获得男性和女性的分布?
如果你能提供一些代码,我是R的新手!
提前致谢 .
2 回答
由于你是R的新手,我建议先考虑excel . 您要求的操作非常简单,可以在Excel中完成 .
如果你想使用R,那么请查看data.frame索引,子集等 .
如果您熟悉SQL,请查看sqldf package
家庭数量:
男性和女性人数:
尝试使用它来探索数据: