所以,基本上,我有一个只读文件(几个GB大,所以广播是没有选项),必须复制到节点上的本地文件夹,因为每个任务内部运行一个程序(通过使用python中的os.system或! scala中的运算符)从本地文件读取(无法从HDFS读取) . 但问题是,一个节点上将运行多个任务 . 如果该节点上尚未存在该文件,则应将其从HDFS复制到本地目录 . 但是我怎么能有一个任务从HDFS获取文件,而其他任务等待它(注意每个任务将在节点上并行运行) . 为此,我可以在Spark中使用哪种文件同步机制?