我有一个长期运行的结构化流媒体任务,使用Kafka作为源和接收器 . 批次通常在一秒钟内完成,但有时可能需要超过20秒 . 我还没有确定一个精确的模式,但我相信这是在闲置期后发生的,而错误的来源是 生产环境 者 . 如果延迟超过默认的request.timeout.ms设置,我会得到以下错误 . 有谁知道延迟发生的原因和可能的解决方案?

18/11/07 10:45:54错误实用程序:中止任务org.apache.kafka.common.errors.NetworkException:服务器在收到响应之前断开连接 . 18/11/07 10:45:54 INFO TaskSetManager:完成任务14.0,阶段209.0(TID 1783),30561 ms,localhost(执行者驱动程序)(15/16)18/11/07 10:45:54错误DataWritingSparkTask:分区10的Writer正在中止 . 18/11/07 10:45:54错误DataWritingSparkTask:分区10的Writer中止 . 18/11/07 10:45:54错误执行程序:阶段209.0(TID 1779)中任务10.0中的异常org.apache.kafka.common.errors.NetworkException:服务器在收到响应之前已断开连接 . 18/11/07 10:45:54 WARN TaskSetManager:阶段209.0中丢失的任务10.0(TID 1779,localhost, Actuator 驱动程序):org.apache.kafka.common.errors.NetworkException:服务器在收到响应之前断开连接 . 18/11/07 10:45:54错误TaskSetManager:阶段209.0中的任务10失败1次;中止工作18/11/07 10:45:54 INFO TaskSchedulerImpl:删除了TaskSet 209.0,其任务已完成,来自池18/11/07 10:45:54 INFO TaskSchedulerImpl:取消阶段209 18/11/07 10: 45:54 INFO DAGScheduler:ResultStage 209(从KafkaUtils.scala:33开始)在30.820秒失败,原因是由于阶段失败导致Job中止:阶段209.0中的任务10失败1次,最近失败:阶段209.0中失去任务10.0( TID 1779,localhost,executor driver):org.apache.kafka.common.errors.NetworkException:服务器在收到响应之前断开连接 . 驱动程序stacktrace:18/11/07 10:45:54 INFO DAGScheduler:Job 208失败:从KafkaUtils.scala开始:33,花了30.854647 s