Pyspark，遍历read.json-Java 学习之路

我是pyspark的新手，我正在尝试使用pyspark用于以下用例，但不确定如何实现它，我希望S3位置中的文件夹名称作为我的read.json示例中的列名：

s3 location s3://mylocation/raghu/date/Appname-1/1.json
s3://mylocation/raghu/date/Appname-2/1.json
s3://mylocation/raghu/date/Appname-3/1.json

等等

我读的json声明是

test = sqlContext.read.json("s3a://mylocation/raghu/*/*/)

每个应用程序名称下都有多个json文件，我在python中尝试使用boto从S3位置提取应用程序名称，但无法将该应用程序名称放在“ test = sqlContext.read.json("s3a://mylocation/raghu/*/App-name/) ”中以从每个应用程序中读取json文件 .

我想要循环每个应用程序名称和读取文件之类的东西，我也希望app-name作为表中的列出现，因为我最终基于app-name分区在HDF中写入数据 .

我在hive中通过在S3位置 s3://mylocation/raghu/date/Appname-1/1.json 之上创建临时表来实现类似，并添加了一个脚本来改变表并添加分区作为app-name，这样我就可以在表中获取app-name并将其用于动态分区 .

任何帮助将不胜感激 .

提前致谢

Pyspark，遍历read.json

相关问题