我不确定这是否是提出这个问题的正确位置 . 因为这更像是一个逻辑问题..但是嘿嘿没有伤害 . 假设我有一个巨大的数据列表(客户),他们都有一个data_id现在我想选择让我们说比例分割数据让我们说10:90拆分 . 现在而不是陈述一个条件(例子)
the sum of digits is even...go to bin 1
the sum of digits is odd.. go to bin 2
or sum of last three digits are x then go to bin 1
sum of last three digits is not x then go to bin 2
现在这可能导致数据收集不均匀..有时它可能能够找到数据..更多(这很好)但有时它可能无法找到足够的数据
有没有办法(概率上讲)说...样本大小总是大于x%
谢谢
1 回答
您希望通过统一分布的功能对数据进行分区 . 散列函数被设计为具有此属性...因此,如果您计算客户ID的哈希值,然后按前n位分区以获得2 ^ n个分箱,则每个分箱应具有大致相同数量的项目 . (然后你可以选择90%的垃圾箱来获得90%的数据 . )希望这会有所帮助 .