我已配置DMS以连续将数据从MySQL RDS复制到S3 . 这会创建两种类型的CSV文件:完整加载和更改数据捕获(CDC) . 根据我的测试,我有以下文件:

testdb/addresses/LOAD001.csv.gz
testdb/addresses/20180405_205807186_csv.gz

在DMS正常运行后,我触发AWS Glue Crawler为包含MySQL Replication文件的S3 Bucket构建数据目录,因此Athena用户将能够在基于S3的Data Lake中构建查询 .

遗憾的是,爬虫不会为存储在S3中的表构建正确的表模式 . 对于上面的示例,它为Athena创建了两个表:

addresses
20180405_205807186_csv_gz

文件 20180405_205807186_csv.gz 包含一行更新,但爬虫无法合并这两个信息(从 LOAD001.csv.gz 获取第一个加载并在 20180405_205807186_csv.gz 中描述更新) .

我还尝试在Athena控制台中创建表,如本博文中所述:https://aws.amazon.com/pt/blogs/database/using-aws-database-migration-service-and-amazon-athena-to-replicate-and-run-ad-hoc-queries-on-a-sql-server-database/ . 但它没有产生所需的输出 .

来自博文:

使用Amazon Athena(本文稍后)查询数据时,只需将文件夹位置指向Athena,查询结果包括通过组合两个文件中的数据来插入现有数据和新数据 .

我错过了什么吗?