-
0 votesanswersviews
AWS Data Pipeline DynamoDB到S3到Redshift,包括JsonPaths
我知道从DynamoDB到Redshift的标准COPY,但这仅适用于没有 Map 和列表的模式 . 我有几个带有 Map 和列表的ddb表,我需要使用jsonpaths来导入Redshift . 所以我的问题是,我可以安排从DynamoDB到S3的备份,然后在备份完成时,运行导入到Redshift包括jsonpaths配置吗?我想这是一个两阶段的过程 . 或者我可以创建一个执行备份和导入的数据管... -
1 votesanswersviews
Azure数据工厂将复制管道中的文件从S3存储桶截断为ADLS
我有一个复制管道设置,使用数据工厂将一些文件从S3存储桶中的每日文件夹复制到Azure中的数据湖中 . 我遇到了这个非常奇怪的问题 . 假设S3存储桶中有三个文件 . 一个是30MB,另一个是50MB,最后一个是70MB . 如果我将30M文件“放在首位”(将其命名为test0.tsv),则声称它成功将所有三个文件复制到ADLS . 但是,第二个和第三个文件被截断为30M . 每个文件的数据都是正... -
0 votesanswersviews
Redshift中的增量加载
我们目前正致力于将数据加载到Redshift中 . 我们这里有不同的场景 . 如果OLTP数据库是驻留在本地的SQL Server,那么我们可以考虑像Attunity这样的工具,它可以帮助通过S3将数据加载到Redshift . CDC中的关联性很聪明,可识别读取事务日志的更改,并可相应地对目标应用更改 . 但是这种工具在ETL过程中应用转换逻辑很差 . Attunity不是SSIS或ODI的... -
1 votesanswersviews
仅备份从DynamoDB到S3的新记录并将其加载到RedShift中
我看到类似的问题已经存在: Backup AWS Dynamodb to S3 Copying only new records from AWS DynamoDB to AWS Redshift Loading data from Amazon dynamoDB to redshift 不幸的是,他们中的大多数已经过时(因为亚马逊引入了新的服务)和/或有不同的答案 . 在我的情况下,我有两个数据... -
1 votesanswersviews
将csv文件转换为DynamoDB json格式
我在AWS S3存储桶中托管的CSV文件中存储了700万条记录,我想将它们加载到DynamoDB表中 . 我已经尝试了数据 AWS pipeline service 但作业总是失败,因为此服务不支持导入CSV格式 . 所以我应该首先将CSV数据转换为DynamoDB可以理解的格式 . 有没有办法进行这种转换? -
0 votesanswersviews
如何使用Pipeline将新记录从DynamoDB复制到S3
我有一个包含大量记录的DynamoDB数据库,每天都在增加 . 最近我使用Pipeline将我的所有记录从DynamoDB导出到S3存储桶,没关系 . 但是现在我想创建另一个Pipeline并仅将DynamoDB中的新记录导出到此存储桶 . 我该怎么做? -
0 votesanswersviews
清除AWS Data Pipeline中DynamoDB表中的所有现有条目
我的目标是获取RDS表的每日快照并将其放在DynamoDB表中 . 该表应仅包含一天的数据 . 为此,设置了数据管道以查询RDS表并将结果以CSV格式发布到S3 . 然后,HiveActivity通过为文件和现有DynamoDB表创建外部表,将此CSV导入DynamoDB表 . 这很好用,但前一天的旧条目仍然存在于DynamoDB表中 . 如果可能的话,我想在Data Pipeline中这样做 ....