首页 文章

Spark Streaming中的RDD分发

提问于
浏览
0

在spark流中,接收的数据在群集中的工作节点中的多个Spark执行程序之间复制(默认复制因子为2)(http://spark.apache.org/docs/1.3.0/streaming-programming-guide.html) . 但是,如何获取特定RDD的复制位置?

1 回答

  • 0

    在Spark UI中有一个名为“Storage”的选项卡,它告诉您哪些RDD被缓存以及哪些(内存,磁盘,序列化等) .

    对于Spark Streaming,默认情况下它会在内存中序列化RDD并根据需要删除旧的RDD . 如果您没有依赖于先前结果的计算,那么将spark.streaming.unpersist设置为True会更好,因此一旦处理完,就会删除以避免对垃圾收集器施加压力 .

相关问题