我正在尝试使用PySpark将大型gzip压缩文件转换为镶木地板 . 我是PySpark的新手 . 以下是我的代码 . 我在具有1个主节点和2个工作节点的Google Cluster中运行此代码 .
#!/usr/bin/python
import pyspark
from pyspark.sql import SparkSession
sc = pyspark.SparkContext()
ss = SparkSession(sc)
spark = ss.builder.appName("Conversion-to-Parquet").getOrCreate()
# read csv
df = spark.read.option("header", "true").csv(
"gs://bucket/test.csv.gz")
# Displays the content of the DataFrame to stdout
df.show(10)
df.write.parquet(
"gs://bucket/parquet/output.parquet")
我不完全知道如何在spark任务中使用parallelise函数来执行此任务 . 有人能帮我吗?此活动大约需要5分钟才能运行,GZipped文件的大小约为1.7gb . 我需要知道我是否可以在更短的时间内完成这项任务以及如何完成任务?
提前致谢 .