Spark：PySpark Cassandra查询性能-Java 学习之路

我已经在本地机器上设置了Spark 2.0和Cassandra 3.0（8核，16gb ram）用于测试目的，并按如下方式编辑 spark-defaults.conf ：

spark.python.worker.memory 1g
spark.executor.cores 4
spark.executor.instances 4
spark.sql.shuffle.partitions 4

接下来我在Cassandra中导入了150万行：

test(
    tid int,
    cid int,
    pid int,
    ev list<double>,
    primary key (tid)
)

test.ev 是包含数值的列表，即 [2240,2081,159,304,1189,1125,1779,693,2187,1738,546,496,382,1761,680]

现在在代码中，为了测试整个事情我刚刚创建了 SparkSession ，连接到Cassandra并进行简单的选择计数：

cassandra = spark.read.format("org.apache.spark.sql.cassandra")
df = cassandra.load(keyspace="testks",table="test")
df.select().count()

此时，Spark输出 count 并需要大约28秒才能完成 Job ，分布在13 Tasks （在 Spark UI 中，任务的总输入为331.6MB）

Questions:

这是预期的表现吗？如果没有，我错过了什么？
Theory说DataFrame的分区数决定了Spark将分配作业的任务数 . 如果我将 spark.sql.shuffle.partitions 设置为4，为什么要创建13个任务？（还确保在我的DataFrame上调用 rdd.getNumPartitions() 的分区数）

Update

我想测试这个数据的常见操作：

正如@ zero323建议的那样，我为Cassandra部署了一台外部机器（2Gb RAM，4核，SSD），仅用于此测试，并加载了相同的数据集 . 与我之前的测试相比，df.select（） . count（）的结果是预期更大的延迟和整体性能更差（完成Job约需70秒） .

Edit: 我误解了他的建议 . @ zero323意味着让Cassandra执行计数而不是使用Spark SQL，如_2543939中所述

另外我想指出的是，我知道为这种类型的数据设置 list<double> 而不是宽行的固有反模式，但此时我关注的是更多花在检索大型数据集上的时间而不是实际平均计算时间 .

1 回答