我需要从AWS S3存储桶向AWS Aurora Postgres SQL实例加载大量数据(大于20亿行的拼花文件) .

我真的很感激有关如何实现这一目标的任何建议 .

我尝试过:AWS Glue - Glue crawler将文件添加到AWS Glue / Athena Data Catalog,然后PySpark代码从S3创建数据框并尝试使用Glue连接写入Aurora . 这个过程的问题在于,如果我为胶水作业提供较少数量的DPU(~5 DPU),并且如果我提供更多(~100DPU,这是最大的),则会非常慢!即使最大数量为100 DPU,估计工作时间约为40-50小时 .

任何人都可以建议更好(更快和更具成本效益)的方法 . 谢谢 .