我有两个关于火花流的问题:
- 我有
20 seconds
批处理间隔中运行的火花串流应用程序和集合数据,4000 batches
中有18 batches
由于异常而失败:
无法计算拆分,阻止输入-0-1464774108087未找到
我假设此时数据大小大于火花可用内存,app StorageLevel
也是 MEMORY_ONLY
.
请告知如何解决这个问题 .
- 同样在我下面使用的命令中,我使用执行程序内存20G(数据节点上的总RAM是140G),这是否意味着该应用程序完全保留了所有内存,如果我有多个火花串流应用程序会发生什么?
几次申请后,我不会用尽内存吗?我需要那么多记忆吗?
/usr/iop/4.1.0.0/spark/bin/spark-submit --master yarn --deploy-mode client --jars /home/blah.jar --num-executors 8 --executor-cores 5 - executor-memory 20G --driver-memory 12G --driver-cores 8 --class com.ccc.nifi.MyProcessor Nifi-Spark-Streaming-20160524.jar