本地服务器和AWS S3之间的数据传输的最佳选择-Java 学习之路

我的组织正在使用 AWS Redshift 和 S3 评估混合数据仓库的选项 . 目标是处理数据 on-premises 并将处理后的副本发送到 S3 ，然后加载到 Redshift 进行可视化 .

由于我们处于初始阶段，因此尚未设置文件/存储网关 .

最初我们使用 Informatica Cloud 工具将数据从本地服务器上传到 AWS S3 ，但是花了很长时间 . 历史上的数据量是几亿条记录，每日增量记录有几千条记录 .

现在，我使用 AWS CLI 创建了自定义UNIX脚本，并使用 CP 命令以 gzip 压缩格式在本地服务器和 AWS S3 之间传输文件 .

这个选项工作正常 . 但是想从专家那里了解，如果这是正确的做法，或者是否有任何其他优化方法可以实现这一目标 .

1 回答

0

如果您的数据量超过100 MB，那么AWS建议使用Multipart上传以获得更好的性能 . 你可以参考以下内容来获得这个AWS Java SDK to upload large file in S3的好处

回复于 2024-04-24T21:13:56+08:00