首页 文章

Spark将大文件作为输入流读取

提问于
浏览
1

我知道spark内置方法可以有分区和读取大块文件并使用textfile分发为rdd . 但是,我在一个定制的加密文件系统中读到这个,火花本质上不支持 . 我能想到的一种方法是读取输入流并加载多行并分发给执行程序 . 继续阅读,直到加载所有文件 . 因此,由于内存不足错误,执行程序不会爆炸 . 这有可能在火花中做到这一点吗?

1 回答

  • 0

    您可以尝试使用lines.take(n)查找不同的n来查找集群的限制 .
    要么

    spark.readStream.option("sep", ";").csv("filepath.csv")
    

相关问题