-
0 votesanswersviews
无法读取镶木地板文件,导致Gzip代码失败错误
我正在尝试将镶木地板转换为带有pyarrow的csv文件 . df = pd.read_parquet('test.parquet') 上面的代码适用于从github下载的样本镶木地板文件 . 但是,当我尝试使用实际的大型镶木地板文件时,它会出现以下错误 . File "_parquet.pyx", line 734, in pyarrow._parquet.ParquetR... -
1 votesanswersviews
distributed.utils - 错误 - 模块'pyarrow'没有属性'hdfs'
我正在尝试使用to_parquet api中的pyarrow引擎将dask数据帧写入hdfs镶木地板 . 但是写入失败,但有以下异常: dask_df.to_parquet(parquet_path,engine=engine) File "/ebs/d1/agent/miniconda3/envs/dask-distributed/lib/python3.6/site-packag... -
3 votesanswersviews
pyarrow可以将多个镶木地板文件写入fastparquet 's file_scheme=' hive'选项这样的文件夹吗?
我有一个数百万的记录SQL表,我打算使用pyarrow库写出文件夹中的许多镶木地板文件 . 数据内容似乎太大而无法存储在单个拼花文件中 . 但是,我似乎无法找到pyarrow库的API或参数,允许我指定类似的东西: file_scheme="hive" 由fastparquet python库支持 . 这是我的示例代码: #!/usr/bin/python import p... -
3 votesanswersviews
使用AWS Lambda读取存储在S3中的Parquet文件(Python 3)
我正在尝试使用AWS Lambda在S3中加载,处理和编写Parquet文件 . 我的测试/部署过程是: https://github.com/lambci/docker-lambda作为模拟Amazon环境的容器,因为需要安装本机库(numpy等) . 此过程生成一个zip文件:http://docs.aws.amazon.com/lambda/latest/dg/with-s3-exa... -
0 votesanswersviews
Python pandas_udf火花错误
我开始在当地玩火花并发现这个奇怪的问题 1) pip install pyspark==2.3.1 2) pyspark> import pandas as pd from pyspark.sql.functions import pandas_udf, PandasUDFType, udf df = pd.DataFrame({'x': [1,2,3], ...