首页 文章

AWS Glue Crawler创建分区和文件表

提问于
浏览
2

我有一个非常基本的s3设置,我想使用Athena查询 . 数据全部存储在一个存储桶中,组织为年/月/日/小时文件夹 .

|--data
|   |--2018
|   |   |--01
|   |   |   |--01
|   |   |   |   |--01
|   |   |   |   |   |--file1.json
|   |   |   |   |   |--file2.json
|   |   |   |   |--02
|   |   |   |   |   |--file3.json
|   |   |   |   |   |--file4.json
...

然后我设置AWS Glue Crawler来抓取 s3://bucket/data . 所有文件中的架构都是相同的 . 我希望我会得到一个数据库表,包括年,月,日等的分区 .

我得到的是成千上万的表 . 每个文件都有一个表,每个父分区也有一个表 . 据我所知,为每个文件/文件夹创建了单独的表,没有一个可以在大日期范围内查询的总体表 .

我尽我所能遵循指令https://docs.aws.amazon.com/glue/latest/dg/crawler-configuration.html,但无法弄清楚如何构建我的分区/扫描,这样我就不会得到这个巨大的,几乎毫无 Value 的数据转储 .

1 回答

  • 0

    大多数时候只有一条记录的文件会创建单独的表 . 我尝试了超过2条记录的文件,并能够将一切表下的所有内容分组 .

    你的json文件怎么样?

相关问题