使用Spark的Cassandra（带有Hadoop）性能-Java 学习之路

我们在与Cassandra不同的节点集上运行Spark / Hadoop . 我们有10个Cassandra节点和多个火花核心，但Cassandra没有在Hadoop上运行 . 通过spark（在纱线客户端模式）从Cassandra获取数据的性能不是很好，从HDFS读取的批量数据更快（在Cassandra中为6分钟，在HDFS中为2分钟） . 改变Spark-Cassandra参数也没有多大帮助 .

在Cassandra上部署Hadoop会解决这个问题并对读取性能产生重大影响吗？

1 回答

0

在不查看代码的情况下，批量读取分析/ Spark容量，直接转到文件VS时总是会更快 . 从数据库中读取 . 数据库提供了其他优势，例如模式实施，可用性，分发控制等，但我认为您看到的性能差异是正常的 .

回复于 2024-04-26T04:04:33+08:00

使用Spark的Cassandra（带有Hadoop）性能

1 回答

相关问题