尝试在pyspark中使用hive上下文执行SQL查询时遇到问题,通过jenkins执行(hive连接只能在dev服务器上执行)

hive_df = connection(sql)
pd_df = hive_df.toPandas()
pd_df.head()

尝试将输出的hive_df转换为pandas df,我得到以下控制台输出 . 查询是一个select语句,包括两个左连接,并按所有组(选中)

对原因有什么看法?

回溯(最近一次调用最后一次):文件“/home/hadoop/script_name.py”,第450行,pd_df = function_name(arg1,arg2,arg3)文件“/home/hadoop/script_name.py”,第230行, in function_name pd_df = hive_df.toPandas()文件“/usr/hdp/current/spark-client/python/lib/pyspark.zip/pyspark/sql/dataframe.py”,第1381行,在toPandas文件中“/ usr / hdp /current/spark-client/python/lib/pyspark.zip/pyspark/sql/dataframe.py“,第280行,收集文件”/usr/hdp/current/spark-client/python/lib/py4j-0.9- src.zip/py4j/java_gateway.py“,第813行,在调用文件”/usr/hdp/current/spark-client/python/lib/pyspark.zip/pyspark/sql/utils.py“,第45行,in deco文件“/usr/hdp/current/spark-client/python/lib/py4j-0.9-src.zip/py4j/protocol.py”,第308行,在get_return_value中