首页 文章

概率逻辑统计

提问于
浏览
0

我不确定这是否是提出这个问题的正确位置 . 因为这更像是一个逻辑问题..但是嘿嘿没有伤害 . 假设我有一个巨大的数据列表(客户),他们都有一个data_id现在我想选择让我们说比例分割数据让我们说10:90拆分 . 现在而不是陈述一个条件(例子)

the sum of digits is even...go to bin 1
the sum of digits is odd.. go to bin 2
or sum of last three digits are x then go to bin 1
sum of last three digits is not x then go to bin 2

现在这可能导致数据收集不均匀..有时它可能能够找到数据..更多(这很好)但有时它可能无法找到足够的数据

有没有办法(概率上讲)说...样本大小总是大于x%

谢谢

1 回答

  • 0

    您希望通过统一分布的功能对数据进行分区 . 散列函数被设计为具有此属性...因此,如果您计算客户ID的哈希值,然后按前n位分区以获得2 ^ n个分箱,则每个分箱应具有大致相同数量的项目 . (然后你可以选择90%的垃圾箱来获得90%的数据 . )希望这会有所帮助 .

相关问题