AWS Data Lake Ingest-Java 学习之路

您是否需要使用胶水摄取excel和其他专有格式，或允许胶水在您的数据湖中使用这些数据格式来爬行您的s3存储桶？

我已经阅读了“Data Lake Foundation on the AWS Cloud”文件，我一直在试图将数据输入湖中 . 我有一个数据提供程序，其系统中存储了大量数据作为excel和访问文件 .

根据流程流程，他们会将数据上传到提交s3存储桶中，这会引发一系列操作，但数据并没有成为可与其他工具配合使用的格式 .

使用这些文件是否需要在存储桶中提交的数据上使用胶水，或者是否有其他方法可以将此数据提供给其他工具，如Athena和redshift频谱？

感谢您对此主题的任何启发 .

-Guido

1 回答

3

我没有看到可以将excel数据直接带到Data Lake . 在加载到Data Lake之前，您可能需要转换为CSV / TSV / Json或其他格式 .

Formats Supported by Redshift Spectrum:

http://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-data-files.html - 我现在再也看不到Excel了 .

Athena Supported File Formats:

http://docs.aws.amazon.com/athena/latest/ug/supported-formats.html - 我不认为这里也不支持Excel .

您需要将文件上传到S3以使用Athena或Redshift Spectrum甚至Redshift存储本身 .

Uploading Files to S3:

如果您有更大的文件，则需要使用S3分段上传来更快地上传 . 如果您想要更快的速度，则需要使用S3加速器上传文件 .

Querying Big Data with Athena:

您可以从S3位置使用Athena创建外部表 . 创建外部表后，使用Athena Sql引用查询数据 .

http://docs.aws.amazon.com/athena/latest/ug/language-reference.html

Querying Big Data with Redshift Spectrum:

与Athena类似，您可以使用Redshift创建外部表 . 开始查询这些表并在Redshift上获得结果 .

Redshift有很多商业工具，我使用SQL Workbench . 它是免费的开源和坚如磐石，由AWS提供支持 .

SQL WorkBench：http://www.sql-workbench.net/

将WorkBench连接到Redshift：http://docs.aws.amazon.com/redshift/latest/mgmt/connecting-using-workbench.html

Copying data to Redshift:

此外，如果您想将数据存储带到Redshift，您可以使用copy命令从S3中提取数据并将其加载到Redshift .

复制命令示例：

http://docs.aws.amazon.com/redshift/latest/dg/r_COPY_command_examples.html

Redshift Cluster Size and Number of Nodes:

在创建Redshift Cluster之前，请检查所需的大小和节点数 . 更多数量的节点并行运行查询 . 另一个重要因素是您的数据分布情况 . （分配键和排序键）

我对Redshift有很好的体验，可能需要一段时间才能达到速度 .

希望能帮助到你 .

回复于 2024-05-19T07:26:51+08:00

AWS Data Lake Ingest

1 回答

相关问题