首页 文章

使用Spark的Cassandra(带有Hadoop)性能

提问于
浏览
0

我们在与Cassandra不同的节点集上运行Spark / Hadoop . 我们有10个Cassandra节点和多个火花核心,但Cassandra没有在Hadoop上运行 . 通过spark(在纱线客户端模式)从Cassandra获取数据的性能不是很好,从HDFS读取的批量数据更快(在Cassandra中为6分钟,在HDFS中为2分钟) . 改变Spark-Cassandra参数也没有多大帮助 .

在Cassandra上部署Hadoop会解决这个问题并对读取性能产生重大影响吗?

1 回答

  • 0

    在不查看代码的情况下,批量读取分析/ Spark容量,直接转到文件VS时总是会更快 . 从数据库中读取 . 数据库提供了其他优势,例如模式实施,可用性,分发控制等,但我认为您看到的性能差异是正常的 .

相关问题