我正在使用Spark 1.3.1 .
我试图在Python中查看Spark数据帧列的值 . 使用Spark数据帧,我可以执行 df.collect()
来查看数据帧的内容,但是对于Spark数据帧列没有这样的方法,就像我看到的那样 .
例如,数据框 df
包含名为 'zip_code'
的列 . 所以我可以做 df['zip_code']
并且它变成 pyspark.sql.dataframe.Column
类型,但我找不到查看 df['zip_code']
中的值的方法 .
2 回答
您可以访问底层
RDD
并映射它如果您不介意使用
Row
对象包装的结果,也可以使用select
:最后,如果您只是想检查内容,那么
show
方法应该足够了:要查看完整内容:
(
show
将向您显示概述) .