首页 文章

PySpark - 将行列表转换为数据帧

提问于
浏览
4

我实际上要解决的问题是获取PySpark数据帧的前N行或后N行,并将结果作为数据帧 . 具体来说,我希望能够做到这样的事情:

my_df.head(20).toPandas()

但是,因为 head() 返回行列表,我收到此错误:

AttributeError: 'list' object has no attribute 'toPandas'

所以,我正在寻找将前N行PySpark数据帧作为数据帧返回的方法,或者将这些行列表转换为数据帧的方法 . 有任何想法吗?

1 回答

  • 9

    随着 limit

    >>> df = sc.parallelize((("a", 1), ("b", 2))).toDF()
    >>> df.limit(1).toPandas()
      _1  _2
    0  a   1
    

    pd.DataFrame

    >>> pd.DataFrame(df.head(1), columns=df.columns)
      _1  _2
    0  a   1
    

相关问题