如何使用pyspark在Spark 2.0中构建sparkSession？-Java 学习之路

我刚接触到spark 2.0;到目前为止，我一直在使用spark 1.6.1 . 有人可以帮我用pyspark（python）设置sparkSession吗？我知道在线提供的scala示例类似（here），但我希望能直接使用python语言 .

我的具体情况：我在一个zeppelin spark笔记本中加载来自S3的avro文件 . 然后构建df并运行各种pyspark和sql查询 . 我所有的旧查询都使用sqlContext . 我知道这是不好的做法，但我开始使用我的笔记本

sqlContext = SparkSession.builder.enableHiveSupport().getOrCreate() .

我可以在avros中阅读

mydata = sqlContext.read.format("com.databricks.spark.avro").load("s3:...

并构建没有问题的数据帧 . 但是一旦我开始查询dataframes / temp表，我就会收到“java.lang.NullPointerException”错误 . 我认为这表明存在转换错误（例如旧查询在1.6.1中工作但需要针对2.0进行调整） . 无论查询类型如何，都会发生错误 . 所以我假设

1.）sqlContext别名是个坏主意

和

2.）我需要正确设置sparkSession .

因此，如果有人能告诉我这是如何完成的，或者可能解释他们所知道的不同版本的火花之间的差异，我将非常感激 . 如果我需要详细说明这个问题，请告诉我 . 如果它令人费解，我道歉 .

3 回答

7
从这里http://spark.apache.org/docs/2.0.0/api/python/pyspark.sql.html
您可以使用以下方法创建一个spark会话：
```
>>> from pyspark.conf import SparkConf
>>> SparkSession.builder.config(conf=SparkConf())
```
回复于 2024-04-26T13:17:20+08:00
8
正如您在scala示例中看到的，Spark Session是sql模块的一部分 . 类似于python . 因此，请参阅pyspark sql module documentation

class pyspark.sql.SparkSession（sparkContext，jsparkSession = None）使用Dataset和DataFrame API编程Spark的入口点 . SparkSession可用于创建DataFrame，将DataFrame注册为表，在表上执行SQL，缓存表以及读取镶木地板文件 . 要创建SparkSession，请使用以下构建器模式：
```
>>> spark = SparkSession.builder \
...     .master("local") \
...     .appName("Word Count") \
...     .config("spark.some.config.option", "some-value") \
...     .getOrCreate()
```
回复于 2024-04-26T13:17:20+08:00

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('abc').getOrCreate()

现在要导入一些你可以使用的.csv文件

df=spark.read.csv('filename.csv',header=True)

回复于 2024-04-26T13:17:20+08:00

如何使用pyspark在Spark 2.0中构建sparkSession？

3 回答

相关问题