我正在从API下载带有发电厂数据的文件 . 我的目标是将这些文件存储在S3中,使用Glue生成表格,使用Athena查询它们 . API限制我为一个发电厂下载24小时的数据,所以我需要循环数百个发电厂和1000天才能获得所有数据 .

我希望以这样的方式存储这些文件,即Glue将为每个国家/地区创建一个表,其中每个发电厂都是一列,而日期时间则被视为一个分区 . 我尝试过的所有文件密钥最终都使用电厂名称作为分区,这使得查询更加困难 . 我尝试过的关键模式是:

/year/month/day/country/powerPlant
/country/powerplant/yy-mm-dd

但他们都将发电厂视为一个分区 . 我能看到的解决方案是加入大量临时表,但考虑到植物的数量,这并不吸引人 . 关于如何将发电厂作为列读取的任何想法?