Cassandra / Spark阅读表现-Java 学习之路

我们有一个工作流程，我们从Cassandra读取数据并使用Spark（JDBC）将数据推送到oracle . 我有一个问题，即某一天的所有数据都进入了一个Cassandra分区 . 我曾经从单个分区读取数据，然后进行spark重新分区以实现并行性 . 因此，在使用Spark从表中读取所有数据时，我们曾经以4Million /小时的速度获得写入性能 .

为了解决这个问题，我使用基于计数器的Cassandra存储桶将数据拆分为更小的分区 . 即便如此，对于较小的分区，再也没有重新分区，我们仍然可以获得大约3M /小时的性能 .

你们能帮助我吗？

Cassandra / Spark阅读表现

相关问题