我们有一个工作流程,我们从Cassandra读取数据并使用Spark(JDBC)将数据推送到oracle . 我有一个问题,即某一天的所有数据都进入了一个Cassandra分区 . 我曾经从单个分区读取数据,然后进行spark重新分区以实现并行性 . 因此,在使用Spark从表中读取所有数据时,我们曾经以4Million /小时的速度获得写入性能 .

为了解决这个问题,我使用基于计数器的Cassandra存储桶将数据拆分为更小的分区 . 即便如此,对于较小的分区,再也没有重新分区,我们仍然可以获得大约3M /小时的性能 .

你们能帮助我吗?