Apache Spark镶木地板分区-Java 学习之路

我试图使用日期作为分区键在Amazon S3镶木地板文件夹中保存DataFrame . 我每天都在加载数据 .

我第一次保存它时看到分区文件夹（即“txDate = 20160714”） .

当我处理下一个文件时，它们都转到"txDate=HIVE_DEFAULT_PARTITION"：see parquet Hive partitions

txDate是int

我正在使用Databricks平台，Apache Spark 1.6.2和Hadoop 2 .

我的代码是Python（Pyspark）

# initial save
df_newTx.write.partitionBy(['txDate']).format('parquet').mode('append').save("/mnt/dm.Inv/f_Tx.parquet")

# incremental save
df_tx_all.write.partitionBy(['txDate']).format('parquet').mode('append').save("/mnt/dm.Inv/f_Tx.parquet")

Apache Spark镶木地板分区

相关问题