首页 文章

德鲁伊 - 流数据摄取 - 连续聚合

提问于
浏览
0

我正在考虑使用德鲁伊进行聚合 . 我的用例是我想将数据流式传输到德鲁伊(这是同一天,其中segmentGranularity设置为DAY),并且在摄取时间我希望聚合数据 .

我的问题是,当我们发送第一个数据流时,数据会汇总并计算聚合并写入Druid . 现在,当我向德鲁伊发送另一个数据流(这与已经卷起的数据有关)时,德鲁伊如何处理它 .

德鲁伊是否会更新汇总数据,或者只是将此数据附加到现有汇总数据?

2 回答

  • 0

    德鲁伊适用于2种类型的摄取 - 流式摄取和批量文件摄取 . 对于流式摄取,它通过Tranquality服务器或Firehose连接到kafka(push vs pull)完成 . -

    对于流数据,汇总聚合将附加到先前的数据 .

    对于批量摄取 - 德鲁伊重新摄取给定时间段或段的整个数据 .

    对于您的用例(每日),如果您没有重复数据问题(即,可能会再次出现相同的数据流),您可以进行流式摄取,否则最好是在指定的时间间隔完成批量摄取,例如 . 每小时 .

  • 0

    感谢您的评论 . 我能够让德鲁伊使用流式摄取和聚合 .

    我发现当数据再次流式传输时,数据聚合会更新 .

    谢谢

相关问题