首页 文章

如何获取数据帧的随机子集[重复]

提问于
浏览
1

这个问题在这里已有答案:

我有一个data.frame有10个cols和大约700K行 .
我想使用pairs(data.frame)函数来显示列值的成对散点图 . 没有必要(或可行)在每个图中绘制所有700K行,因此我想选择要绘制的2或3K(一些小数量)行的随机子集 .

有人可以协助我选择我的数据框的一个小的随机子集 . 我想也是

  • data.frame或X%的随机子集

  • 每个第N行都可以 .
    我知道我已经看到了这个,但无法找到代码片段....

谢谢

2 回答

  • 1

    重要的问题是:行的随机子集是否会准确描述整个数据集?
    在我们理解您的数据代表什么(时间序列与随机样本或其他内容)之前,很难就正确的绘图子集提供适当的建议 .

    你是否会更好,例如,通过 splinefun 为每列创建一个函数,并生成从最小到最大的均匀间距的拟合数据图?

  • 3

    会这样的吗?

    a <- sample(1:700000,10) # option 1
    a <- seq(1, 700000, by = 200) # option 2
    

    然后可以获得子集 -

    randomssubset <- df[a,]
    

相关问题