Home Articles

AWS Data Pipeline DynamoDB到S3到Redshift,包括JsonPaths

Asked
Viewed 1286 times
0

我知道从DynamoDB到Redshift的标准COPY,但这仅适用于没有 Map 和列表的模式 . 我有几个带有 Map 和列表的ddb表,我需要使用jsonpaths来导入Redshift .

所以我的问题是,我可以安排从DynamoDB到S3的备份,然后在备份完成时,运行导入到Redshift包括jsonpaths配置吗?我想这是一个两阶段的过程 . 或者我可以创建一个执行备份和导入的数据管道吗?

或者,是否有可以使用AWS的任务运行器,或者我是否需要挂钩事件(SNS)以通知导入备份已完成?

2 Answers

  • 0

    AWS现在有一些可以运行任务的服务 . 您可以使用AWS step functions管理导入工作流程 . 对应于导入工作流程中每个步骤的AWS Lambda functions可能会产生AWS Batch jobs,其中第一个作业将DynamoDB表备份到S3,第二个作业将使用jsonpaths配置导入Redshift .

  • 0

    你可以做一个Dynamo到RS副本,但两者的模式必须完全匹配AFAIK(我还没试过这个)

    但是,您可以设置两个/单个管道来设置从DDB到S3以及从S3到RS的备份 . DDB将备份作为JSON对象,因此您需要将jsonpath配置插入到RS中

    示例col1(number) - 0 col2(String) - x您的备份看起来像{“col1”:{“n”:“0”},“col2”:{“s”:“x”}}您的jsonpath为得0应该像$ .col1.n

    如果设置了2个管道,则可以使用数据管道预定义模板,但是如果要使用一个管道,则必须构建自己的模板或从模板开始并构建模板

    您可以在管道的故障或成功时挂起snsAlarm .

Related