我想从一个实时更新的cassandra表中流式传输数据 . 是的,它是一个数据库但是有办法做到这一点吗?如果是这样,保留偏移或我可以使用哪些CQL查询?
简短的回答是否定的 .
很长的答案是有很多困难和智能群集键,你可以做到这一点 . 基本上,如果使用始终增加的聚类键插入数据,则始终只能在最近的时间间隔内扫描聚类键 . 这当然会错过窗外的无序插入 . 对于您的用例,这可能或可能不够好 .
未来的最佳答案是变更数据捕获:https://issues.apache.org/jira/browse/CASSANDRA-8844
我知道你是专门询问有关Cassandra的流数据,但我想建议像_2544868这样的技术听起来更适合你想要做的事情 . 它由number of other large companies使用,具有出色的实时性能 .
Jay Kreps有一篇名为The Log: What every software engineer should know about real-time data's unifying abstraction的开创性博客文章很好地解释了Kafka _2544871的角色:
获取组织的所有数据并将其放入中央日志中以进行实时订阅 .
2 回答
简短的回答是否定的 .
很长的答案是有很多困难和智能群集键,你可以做到这一点 . 基本上,如果使用始终增加的聚类键插入数据,则始终只能在最近的时间间隔内扫描聚类键 . 这当然会错过窗外的无序插入 . 对于您的用例,这可能或可能不够好 .
未来的最佳答案是变更数据捕获:https://issues.apache.org/jira/browse/CASSANDRA-8844
我知道你是专门询问有关Cassandra的流数据,但我想建议像_2544868这样的技术听起来更适合你想要做的事情 . 它由number of other large companies使用,具有出色的实时性能 .
Jay Kreps有一篇名为The Log: What every software engineer should know about real-time data's unifying abstraction的开创性博客文章很好地解释了Kafka _2544871的角色: