Spark和cassandra，关于聚类键的范围查询-Java 学习之路

我有以下结构的cassandra表：

CREATE TABLE表（key int，time timestamp，measure float，primary key（key，time））;

我需要创建一个Spark作业，它将从上一个表中读取数据， within specified start and end timestamp 做一些处理，并将结果刷新回cassandra .

所以我的spark-cassandra-connector必须对集群cassandra表列进行范围查询 .

如果我这样做，是否有任何性能差异：

sc.cassandraTable(keyspace,table).
as(caseClassObject).
filter(a => a.time.before(startTime) && a.time.after(endTime).....

所以我正在做的是将所有数据加载到Spark并应用过滤

或者，如果我这样做：

sc.cassandraTable(keyspace, table).
where(s"time>$startTime and time<$endTime)......

它过滤Cassandra中的所有数据，然后将较小的子集加载到Spark .

范围查询的选择性约为1％ . 在查询中不可能包含分区键 .

这两种解决方案中哪一种更受欢迎？

1 回答