我编写了一个程序来将项目写入DynamoDB表 . 现在我想使用PySpark读取DynamoDB表中的所有项目 . 在Spark中有没有可用的库?
您可以使用parallel scans作为DynamoDB API到boto3的一部分,以及为PySpark编写的并行S3文件处理应用程序here这样的方案 . 基本上,不是先验地读取所有键,而是在Spark的 map_func 函数中创建一个段号列表并硬编码用于扫描的最大段数 .
map_func
1 回答
您可以使用parallel scans作为DynamoDB API到boto3的一部分,以及为PySpark编写的并行S3文件处理应用程序here这样的方案 . 基本上,不是先验地读取所有键,而是在Spark的
map_func
函数中创建一个段号列表并硬编码用于扫描的最大段数 .