AWS EMR从S3导入pyfile-Java 学习之路

我很难理解如何使用pyspark将文件作为库导入 .

假设我有以下内容

HappyBirthday.py

def run():
    print('Happy Birthday!')

sparky.py

from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession
import HappyBirthday
sc = SparkContext(appName="kmeans")

HappyBirthday.run()
sc.stop()

它们都存储在S3的同一个文件夹中 .

当我使用时，我如何确保这一点

spark-submit --deploy-mode cluster s3://<PATH TO FILE>/sparky.py

，HappyBirthday.py也是进口的吗？

1 回答

0
你想在这里使用的是 spark-submit 的 --py-files 参数 . 从Spark文档中的submitting applications页面：

对于Python，您可以使用spark-submit的--py-files参数添加.py，.zip或.egg文件，以便与您的应用程序一起分发 . 如果您依赖多个Python文件，我们建议将它们打包成.zip或.egg .

对于您的示例，这将是：
```
spark-submit --deploy-mode cluster --py-files s3://<PATH TO FILE>/sparky.py
```
回复于 2024-04-28T12:14:14+08:00

AWS EMR从S3导入pyfile

1 回答

相关问题