我们使用AWS胶水转换存储在S3 datalake中的JSON文件 .
以下是我遵循的步骤,
-
创建了一个爬虫程序,用于从我们的datalake存储桶中生成具有JSON数据的Glue表 .
-
新创建的表具有如下分区,
名称,年份,月份,日期,小时
- 创建了一个粘合作业,将其转换为Parquet并存储在另一个存储桶中
通过这些过程,作业成功运行,但新存储桶中的数据未分区 . 它只是在一个目录下 .
我想要实现的是转换后的镶木地板文件应该与源表/数据湖桶中的分区相同 .
另外,我想增加镶木地板文件的文件大小(减少文件数) .
谁可以帮我这个事?