我们使用AWS胶水转换存储在S3 datalake中的JSON文件 .

以下是我遵循的步骤,

  • 创建了一个爬虫程序,用于从我们的datalake存储桶中生成具有JSON数据的Glue表 .

  • 新创建的表具有如下分区,

名称,年份,月份,日期,小时

  • 创建了一个粘合作业,将其转换为Parquet并存储在另一个存储桶中

通过这些过程,作业成功运行,但新存储桶中的数据未分区 . 它只是在一个目录下 .

我想要实现的是转换后的镶木地板文件应该与源表/数据湖桶中的分区相同 .

另外,我想增加镶木地板文件的文件大小(减少文件数) .

谁可以帮我这个事?