我有两个关于火花流的问题:

  • 我有 20 seconds 批处理间隔中运行的火花串流应用程序和集合数据, 4000 batches 中有 18 batches 由于异常而失败:

无法计算拆分,阻止输入-0-1464774108087未找到

我假设此时数据大小大于火花可用内存,app StorageLevel 也是 MEMORY_ONLY .

请告知如何解决这个问题 .

  • 同样在我下面使用的命令中,我使用执行程序内存20G(数据节点上的总RAM是140G),这是否意味着该应用程序完全保留了所有内存,如果我有多个火花串流应用程序会发生什么?

几次申请后,我不会用尽内存吗?我需要那么多记忆吗?

/usr/iop/4.1.0.0/spark/bin/spark-submit --master yarn --deploy-mode client --jars /home/blah.jar --num-executors 8 --executor-cores 5 - executor-memory 20G --driver-memory 12G --driver-cores 8 --class com.ccc.nifi.MyProcessor Nifi-Spark-Streaming-20160524.jar