首页 文章

cassandra火花的正确设置是什么?

提问于
浏览
0

在使用和使用火花连接器之后,我想以最有效的方式利用它来进行批量处理 .

在Cassandra节点所在的同一主机上设置spark worker的正确方法是什么?火花连接器能确保数据的位置吗?

我有点担心一个内存密集的火花 Worker 会导致整个机器停止,然后我将失去一个Cassandra节点,所以我有点困惑我是否应该将 Worker 放在Cassandra节点上,或者分开(这意味着没有数据位置) . 常见的方式是什么?为什么?

1 回答

  • 3

    这取决于您的特定用例 . 有些事情需要注意

    1)CPU共享,而Spark和Cassandra之间不会共享内存(堆将是独立的) . 没有什么可以阻止火花 Actuator 在C * cpu核心上浪费时间 . 如果火花过程非常密集,这可能导致C *的负载和减速 . 如果不是那么这不是一个问题 .

    2)您的网络速度,如果您的网络速度非常快,那么与低速网络相比,本地化的 Value 要低得多 .

    所以你必须问自己,你想要一个更简单的设置(一切都在一个地方)或者你想要一个复杂的设置,但更孤立 .

    例如,DataStax(我工作的公司)默认使用与Cassandra共存的Spark运行,但我们也提供单独运行的选项 . 我们的大多数用户可能因为这个默认设置而共处,那些通常不会因为更容易扩展而这样做的人 .

相关问题