首页 文章

查看Spark Dataframe列的内容

提问于
浏览
20

我正在使用Spark 1.3.1 .

我试图在Python中查看Spark数据帧列的值 . 使用Spark数据帧,我可以执行 df.collect() 来查看数据帧的内容,但是对于Spark数据帧列没有这样的方法,就像我看到的那样 .

例如,数据框 df 包含名为 'zip_code' 的列 . 所以我可以做 df['zip_code'] 并且它变成 pyspark.sql.dataframe.Column 类型,但我找不到查看 df['zip_code'] 中的值的方法 .

2 回答

  • 24

    您可以访问底层 RDD 并映射它

    df.rdd.map(lambda r: r.zip_code).collect()
    

    如果您不介意使用 Row 对象包装的结果,也可以使用 select

    df.select('zip_code').collect()
    

    最后,如果您只是想检查内容,那么 show 方法应该足够了:

    df.select('zip_code').show()
    
  • 2

    要查看完整内容:

    df.select("raw").take(1).foreach(println)
    

    show 将向您显示概述) .

相关问题