pyspark生成EOF错误-Java 学习之路

我正在创建一个火花Kafka集成项目 .

该项目的任务是从Kafka读取并进行结构化流式传输操作并将输出返回给Kafka . 在结构化流媒体操作中，我应用了pandas UDF并在该函数中应用了一些机器学习代码 . 我尝试使用非常小的数据集并且工作正常，现在使用了更大的数据集（9120,5625）并收到以下错误：

在主eval_type = read_int（infile）文件中输入文件“... / server / spark-2.3.0-bin- hadoop2.7 / python / lib / pyspark.zip / pyspark / worker.py”，第214行 . ../server/spark-2.3.0-bin- hadoop2.7 / python / lib / pyspark.zip / pyspark / serializers.py“，第685行，在read_int中引发EOFError EOFError

知道为什么pyspark会产生这个错误吗？

更新：

我试图从 Kafka 读取相同的数据;将它存储到Dataframe中并传递df以在控制台中打印并得到“java.lang.OutOFMemoryError：”

对于Info，我正在使用8GB ram笔记本电脑，而我只创建了一个在Kafka中有一个分区和一个代理的主题 .

pyspark生成EOF错误

相关问题