一位同事用猪创建了一些文件,并将它们保存在hdfs上 .
文件夹名称XYZ
.pig_header
.pig_schema
_SUCCESS
part-r-00000
我喜欢在pyspark读它们 . 我该怎么做呢 ?
我已经从hive中成功读取了文件 . 此外,我能够使用pyspark从我自己创建的hdfs中读取文件
运用
df = spark.read.csv('XYZ', sep=";")
我能够在hdfs上读取生成的数据,但是当我这样做时它不包含 Headers ,因为 Headers 似乎保存在.pig_header文件中
有人可以告诉我如何使用pyspark将这些文件读入数据帧,以便数据帧的列使用.pig_header中指定的标头?
我使用的是Python 3.6
提前致谢
亲切的问候,乔纳森