Spark SQL和Cassandra JOIN-Java 学习之路

我的Cassandra架构包含一个表，其中包含一个时间戳的分区键，以及一个作为聚类键的 parameter 列 .

每个分区包含10k行 . 这是以每秒1个分区的速率记录数据 .

另一方面，用户可以定义“数据集”，我有另一个表，其中包含作为分区键的“数据集名称”和一个聚类列，它是一个引用另一个表的时间戳（因此“数据集”是一个列表分区键） .

当然，我想做的事情看起来像Cassandra的反模式，因为我想加入两张 table .

但是使用Spark SQL我可以运行这样的查询并执行 JOIN .

SELECT * from datasets JOIN data 
    WHERE data.timestamp = datasets.timestamp AND datasets.name = 'my_dataset'

现在的问题是：Spark SQL是否足够聪明，只能读取 data 的分区，这些分区对应于 datasets 中定义的 timestamp ？

1 回答