AWS Glue Crawler创建分区和文件表-Java 学习之路

我有一个非常基本的s3设置，我想使用Athena查询 . 数据全部存储在一个存储桶中，组织为年/月/日/小时文件夹 .

|--data
|   |--2018
|   |   |--01
|   |   |   |--01
|   |   |   |   |--01
|   |   |   |   |   |--file1.json
|   |   |   |   |   |--file2.json
|   |   |   |   |--02
|   |   |   |   |   |--file3.json
|   |   |   |   |   |--file4.json
...

然后我设置AWS Glue Crawler来抓取 s3://bucket/data . 所有文件中的架构都是相同的 . 我希望我会得到一个数据库表，包括年，月，日等的分区 .

我得到的是成千上万的表 . 每个文件都有一个表，每个父分区也有一个表 . 据我所知，为每个文件/文件夹创建了单独的表，没有一个可以在大日期范围内查询的总体表 .

我尽我所能遵循指令https://docs.aws.amazon.com/glue/latest/dg/crawler-configuration.html，但无法弄清楚如何构建我的分区/扫描，这样我就不会得到这个巨大的，几乎毫无 Value 的数据转储 .

1 回答

0

大多数时候只有一条记录的文件会创建单独的表 . 我尝试了超过2条记录的文件，并能够将一切表下的所有内容分组 .

你的json文件怎么样？

回复于 2024-04-29T07:24:10+08:00

AWS Glue Crawler创建分区和文件表

1 回答

相关问题