我很难理解如何使用pyspark将文件作为库导入 .
假设我有以下内容
HappyBirthday.py
def run():
print('Happy Birthday!')
sparky.py
from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession
import HappyBirthday
sc = SparkContext(appName="kmeans")
HappyBirthday.run()
sc.stop()
它们都存储在S3的同一个文件夹中 .
当我使用时,我如何确保这一点
spark-submit --deploy-mode cluster s3://<PATH TO FILE>/sparky.py
,HappyBirthday.py也是进口的吗?
1 回答
你想在这里使用的是
spark-submit
的--py-files
参数 . 从Spark文档中的submitting applications页面:对于您的示例,这将是: