首页 文章

从Spark程序连接DynamoDB以使用Python从一个表加载所有项目?

提问于
浏览
8

我编写了一个程序来将项目写入DynamoDB表 . 现在我想使用PySpark读取DynamoDB表中的所有项目 . 在Spark中有没有可用的库?

1 回答

  • 1

    您可以使用parallel scans作为DynamoDB APIboto3的一部分,以及为PySpark编写的并行S3文件处理应用程序here这样的方案 . 基本上,不是先验地读取所有键,而是在Spark的 map_func 函数中创建一个段号列表并硬编码用于扫描的最大段数 .

相关问题