首页 文章

AWS EMR从S3导入pyfile

提问于
浏览
0

我很难理解如何使用pyspark将文件作为库导入 .

假设我有以下内容

HappyBirthday.py

def run():
    print('Happy Birthday!')

sparky.py

from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession
import HappyBirthday
sc = SparkContext(appName="kmeans")

HappyBirthday.run()
sc.stop()

它们都存储在S3的同一个文件夹中 .

当我使用时,我如何确保这一点

spark-submit --deploy-mode cluster s3://<PATH TO FILE>/sparky.py

,HappyBirthday.py也是进口的吗?

1 回答

  • 0

    你想在这里使用的是 spark-submit--py-files 参数 . 从Spark文档中的submitting applications页面:

    对于Python,您可以使用spark-submit的--py-files参数添加.py,.zip或.egg文件,以便与您的应用程序一起分发 . 如果您依赖多个Python文件,我们建议将它们打包成.zip或.egg .

    对于您的示例,这将是:

    spark-submit --deploy-mode cluster --py-files s3://<PATH TO FILE>/sparky.py
    

相关问题