如何在pyspark中为给定路径编写Dataframe时避免使用随机数？-Java 学习之路

通过执行下面的代码我有pyspark Dataframe我在给路径中保存了Dataframe .

df.write.format("csv").options(header='false', inferschema='true',sep="|").option("codec", "org.apache.hadoop.io.compress.GzipCodec").save("path")

当我通过执行 ls -ltr 命令列出文件时保存路径文件夹中的文件 .

-rw-r--r-- 1 administrator administrator 101 May 16 12:47 part-00002-41096c1e-314a-4191-bd50-2ecc2c23b760-c000.csv.gz
-rw-r--r-- 1 administrator administrator 201 May 16 12:47 part-00000-41096c1e-314a-4191-bd50-2ecc2c23b760-c000.csv.gz
-rw-r--r-- 1 administrator administrator 227 May 16 12:47 part-00005-41096c1e-314a-4191-bd50-2ecc2c23b760-c000.csv.gz
-rw-r--r-- 1 administrator administrator 214 May 16 12:47 part-00004-41096c1e-314a-4191-bd50-2ecc2c23b760-c000.csv.gz

我的输出文件包含一些随机数，如 '41096c1e-314a-4191-bd50-2ecc2c23b760-c000 ' . 如何避免文件名中的这个随机数，即我期待我的输出文件应为 part-00001.gz,part-00002.gz etc or part-00001.csv.gz,part-00002.csv.gz

请帮我解决这个问题 . 如何实现这一目标？

如何在pyspark中为给定路径编写Dataframe时避免使用随机数？

相关问题