使用PySpark发出执行SQL的问题，将hive_df转换为pandas-Java 学习之路

尝试在pyspark中使用hive上下文执行SQL查询时遇到问题，通过jenkins执行（hive连接只能在dev服务器上执行）

hive_df = connection(sql)
pd_df = hive_df.toPandas()
pd_df.head()

尝试将输出的hive_df转换为pandas df，我得到以下控制台输出 . 查询是一个select语句，包括两个左连接，并按所有组（选中）

对原因有什么看法？

回溯（最近一次调用最后一次）：文件“/home/hadoop/script_name.py”，第450行，pd_df = function_name（arg1，arg2，arg3）文件“/home/hadoop/script_name.py”，第230行， in function_name pd_df = hive_df.toPandas（）文件“/usr/hdp/current/spark-client/python/lib/pyspark.zip/pyspark/sql/dataframe.py”，第1381行，在toPandas文件中“/ usr / hdp /current/spark-client/python/lib/pyspark.zip/pyspark/sql/dataframe.py“，第280行，收集文件”/usr/hdp/current/spark-client/python/lib/py4j-0.9- src.zip/py4j/java_gateway.py“，第813行，在调用文件”/usr/hdp/current/spark-client/python/lib/pyspark.zip/pyspark/sql/utils.py“，第45行，in deco文件“/usr/hdp/current/spark-client/python/lib/py4j-0.9-src.zip/py4j/protocol.py”，第308行，在get_return_value中

使用PySpark发出执行SQL的问题，将hive_df转换为pandas

相关问题