我有一个非常基本的s3设置,我想使用Athena查询 . 数据全部存储在一个存储桶中,组织为年/月/日/小时文件夹 .
|--data
| |--2018
| | |--01
| | | |--01
| | | | |--01
| | | | | |--file1.json
| | | | | |--file2.json
| | | | |--02
| | | | | |--file3.json
| | | | | |--file4.json
...
然后我设置AWS Glue Crawler来抓取 s3://bucket/data
. 所有文件中的架构都是相同的 . 我希望我会得到一个数据库表,包括年,月,日等的分区 .
我得到的是成千上万的表 . 每个文件都有一个表,每个父分区也有一个表 . 据我所知,为每个文件/文件夹创建了单独的表,没有一个可以在大日期范围内查询的总体表 .
我尽我所能遵循指令https://docs.aws.amazon.com/glue/latest/dg/crawler-configuration.html,但无法弄清楚如何构建我的分区/扫描,这样我就不会得到这个巨大的,几乎毫无 Value 的数据转储 .
1 回答
大多数时候只有一条记录的文件会创建单独的表 . 我尝试了超过2条记录的文件,并能够将一切表下的所有内容分组 .
你的json文件怎么样?