这个问题在这里已有答案:
我有一个data.frame有10个cols和大约700K行 .我想使用pairs(data.frame)函数来显示列值的成对散点图 . 没有必要(或可行)在每个图中绘制所有700K行,因此我想选择要绘制的2或3K(一些小数量)行的随机子集 .
有人可以协助我选择我的数据框的一个小的随机子集 . 我想也是
data.frame或X%的随机子集
每个第N行都可以 .我知道我已经看到了这个,但无法找到代码片段....
谢谢
重要的问题是:行的随机子集是否会准确描述整个数据集?在我们理解您的数据代表什么(时间序列与随机样本或其他内容)之前,很难就正确的绘图子集提供适当的建议 .
你是否会更好,例如,通过 splinefun 为每列创建一个函数,并生成从最小到最大的均匀间距的拟合数据图?
splinefun
会这样的吗?
a <- sample(1:700000,10) # option 1 a <- seq(1, 700000, by = 200) # option 2
然后可以获得子集 -
randomssubset <- df[a,]
2 回答
重要的问题是:行的随机子集是否会准确描述整个数据集?
在我们理解您的数据代表什么(时间序列与随机样本或其他内容)之前,很难就正确的绘图子集提供适当的建议 .
你是否会更好,例如,通过
splinefun
为每列创建一个函数,并生成从最小到最大的均匀间距的拟合数据图?会这样的吗?
然后可以获得子集 -