我们会收集有关网站流量的数据,这样每天就会产生大约5万到10万次独立访问 .
队列分析:
查找24小时内在网站上注册然后实际进入我们的采购页面的用户百分比(计算在注册后的第一,第二,第三小时内有多少用户执行此操作的百分比) .
两个非常简短的示例文档:
-
sessionId:执行计数的唯一标识符
-
url:评估同类群组的网址
-
time:事件的unix时间戳
{“sessionId”:“some-random-id”,“time”:1428238800000,(unix时间戳:4月5日,下午3:00)“url”:“/ register”}
{“sessionId”:“some-random-id”,“time”:1428241500000,(unix时间戳:4月5日,下午3:45)“url”:“/ buy”}
如果我想在6个月的时间段内进行相同的聚合,并且想检查返回客户的执行队列?数据集太庞大了 .
另外一点:我对获得100%准确的结果也不感兴趣,近似值足以用于趋势分析 .
我们能用德鲁伊做到这一点吗?或者它不适合这种分析?还有什么比队列分析更优秀吗?
1 回答
我认为你可以用德鲁伊和数据草图来做到这一点 . 看看最后一个例子是page如果你想要使用这种近似方法,你可以看一下here来理解近似的约束误差和你可以交易记忆的准确性 .