Spark Streaming中的RDD分发

提问于 2024-04-25T03:41:41+08:00

浏览次

0

在spark流中，接收的数据在群集中的工作节点中的多个Spark执行程序之间复制（默认复制因子为2）（http://spark.apache.org/docs/1.3.0/streaming-programming-guide.html） . 但是，如何获取特定RDD的复制位置？

1 回答

0

在Spark UI中有一个名为“Storage”的选项卡，它告诉您哪些RDD被缓存以及哪些（内存，磁盘，序列化等） .

对于Spark Streaming，默认情况下它会在内存中序列化RDD并根据需要删除旧的RDD . 如果您没有依赖于先前结果的计算，那么将spark.streaming.unpersist设置为True会更好，因此一旦处理完，就会删除以避免对垃圾收集器施加压力 .

回复于 2024-04-25T03:41:41+08:00

相关问题