一位同事用猪创建了一些文件,并将它们保存在hdfs上 .

文件夹名称XYZ

.pig_header
    .pig_schema
    _SUCCESS
    part-r-00000

我喜欢在pyspark读它们 . 我该怎么做呢 ?

我已经从hive中成功读取了文件 . 此外,我能够使用pyspark从我自己创建的hdfs中读取文件

运用

df = spark.read.csv('XYZ', sep=";")

我能够在hdfs上读取生成的数据,但是当我这样做时它不包含 Headers ,因为 Headers 似乎保存在.pig_header文件中

有人可以告诉我如何使用pyspark将这些文件读入数据帧,以便数据帧的列使用.pig_header中指定的标头?

我使用的是Python 3.6

提前致谢

亲切的问候,乔纳森