用PySpark读取镶木地板文件-Java 学习之路

我是Pyspark的新手，似乎没有任何成果 . 请救援 . 我想和Pyspark一起阅读镶木地板文件 . 我写了以下代码 .

from pyspark.sql import SQLContext

sqlContext = SQLContext(sc)

sqlContext.read.parquet("my_file.parquet")

我收到以下错误

Py4JJavaError Traceback（最近调用最后一次）/usr/local/spark/python/pyspark/sql/utils.py in deco（* a，** kw）62 try：---> 63 return f（* a，* * kw）64除了py4j.protocol.Py4JJavaError为e：/usr/local/spark/python/lib/py4j-0.10.4-src.zip/py4j/protocol.py in get_return_value（answer，gateway_client，target_id，name） 318“调用{0} {1} {2}时发生错误 . \ n” . - > 319格式（target_id，“ . ”，名称），值）320 else：

然后我尝试了以下代码

from pyspark.sql import SQLContext

sc = SparkContext.getOrCreate()

SQLContext.read.parquet("my_file.parquet")

然后错误如下：

AttributeError：'property'对象没有属性'parquet'

2 回答

您需要首先创建SQLContext的实例 .

这将来自pyspark shell：

from pyspark.sql import SQLContext

sqlContext = SQLContext(sc)
sqlContext.read.parquet("my_file.parquet")

如果你使用spark-submit，你需要创建SparkContext，在这种情况下你会这样做：

from pyspark import SparkContext
from pyspark.sql import SQLContext

sc = SparkContext()
sqlContext = SQLContext(sc)
sqlContext.read.parquet("my_file.parquet")

回复于 2024-04-20T20:57:10+08:00

from pyspark import SparkConf, SparkContext
from pyspark.sql import SQLContext
sc.stop()
conf = (conf.setMaster('local[*]'))
sc = SparkContext(conf = conf)
sqlContext = SQLContext(sc)

df = sqlContext.read.parquet("my_file.parquet")

试试这个 .

回复于 2024-04-20T20:57:10+08:00

用PySpark读取镶木地板文件

2 回答

相关问题