首页 文章

当底层JSON文件中的时间戳格式发生更改时,在Athena中查询时间戳数据

提问于
浏览
0

我正在从存储在S3中的JSON文件中查询AWS Athena中的数据 . 我已经使用AWS Glue将所有JSON文件加载到Athena中,到目前为止它一直运行良好 . 但是,时间戳格式在JSON文件中已更改

2018-03-23 15:00:30.998

2018-08-29T07:59:50.568Z

所以表最终会有这样的条目

2018-08-29T07:59:42.803Z
2018-08-29T07:59:42.802Z
2018-08-29T07:59:32.500Z
2018-03-23 15:03:43.232
2018-03-23 15:03:44.697
2018-03-23 15:04:11.951

当我尝试针对完整数据库运行查询时,这会导致解析错误 .

我如何在AWS Glue(或Athena)中容纳这个,所以在查询时我不必分割数据?我试过调查自定义分类器,但我不确定如何在这种特殊情况下使用它们 .

提前致谢 .

1 回答

  • 1

    不幸的是,你必须统一数据 . 如果您决定使用“2018-08-29T07:59:50.568Z”格式,则可以使用带有以下serde属性的org.apache.hive.hcatalog.data.JsonSerDe库来读取此类数据:'timestamp.formats'=' YYYY-MM-DD \ 'T ' HH:MM:ss.SSSZ”

相关问题