首页 文章

Spark在Cassandra之上如何影响Cassandra数据建模?

提问于
浏览
0

我在处理Cassandra时学到的第一件事是你需要非常小心你的数据模型,因为Cassandra不支持连接,聚合等 . 所以你根据你的查询建模你的数据,使用大量的去噪,等等 .

但是,假设我决定在Cassandra上运行Spark . Spark将允许进行连接和聚合,以及对数据的不同计算 .

所以我的问题是在Cassandra中建模我的数据并考虑到我将在其上运行Spark我是否需要更改我的模型以便它们适合Spark以便更快地进行计算,或者我仍然需要坚持使用最佳的数据建模实践普通 Cassandra ?

例如,如果我在cassandra中有Table1和Table2,它们保存相同的数据,但在Table1中,一个数据由Key1,Key2(partion键)键入,在表二中,数据由Key1,Key3(partion键)键入,这些是基本上是我的数据的两个视图,可以快速查询 . 如果我需要通过Key1,Key2,Key3查询数据,我将不得不创建第三个表Table3 . 但是知道我可以在Cassandra上查询并加入Spark中的Table1和Table2,我可能不需要创建Table3吗?

1 回答

  • 0

    表1表2表示两次读取,而表3表示一次读取 . 因此,具有复合主键的Table3会更快

相关问题