使用IN作为复合分区键时，Spark-Cassandra非常慢-Java 学习之路

我有一个带有复合分区键的cassandra表（time_bucket timestamp，node int） . time_bucket值是插入数据的时间，秒数转换为00，节点值范围为0到100

火花作业每分钟都会从表格中获取数据 . 该表包含近2500万条记录，每分钟都会添加记录 .

如果我的spark作业每次运行时都选择所有记录，则作业将在2分钟内完成 . 但如果我查询使用：

s c.cassandraTable(keyspace_name,table_name).where("time_bucket = ? ", from).where("nodeid_bucket IN ? ", nodeid_bucket_range)

其中val nodeid_bucket_range = 0到100，

这项工作需要10分钟才能完成 .

我的群集有6个节点，我正在使用DSE 4.8.9 . 每个 Actuator 使用8个内核和20GB内存 . 增加这些值无助于使火花加工更快 .

知道为什么我的工作需要10分钟吗？使用IN子句时spark-cassandra不能正常工作吗？

2 回答