我正在创建一个火花Kafka集成项目 .

该项目的任务是从Kafka读取并进行结构化流式传输操作并将输出返回给Kafka . 在结构化流媒体操作中,我应用了pandas UDF并在该函数中应用了一些机器学习代码 . 我尝试使用非常小的数据集并且工作正常,现在使用了更大的数据集(9120,5625)并收到以下错误:

在主eval_type = read_int(infile)文件中输入文件“... / server / spark-2.3.0-bin- hadoop2.7 / python / lib / pyspark.zip / pyspark / worker.py”,第214行 . ../server/spark-2.3.0-bin- hadoop2.7 / python / lib / pyspark.zip / pyspark / serializers.py“,第685行,在read_int中引发EOFError EOFError

知道为什么pyspark会产生这个错误吗?

更新:

我试图从 Kafka 读取相同的数据;将它存储到Dataframe中并传递df以在控制台中打印并得到“java.lang.OutOFMemoryError:”

对于Info,我正在使用8GB ram笔记本电脑,而我只创建了一个在Kafka中有一个分区和一个代理的主题 .