首页 文章

用PySpark读取镶木地板文件

提问于
浏览
0

我是Pyspark的新手,似乎没有任何成果 . 请救援 . 我想和Pyspark一起阅读镶木地板文件 . 我写了以下代码 .

from pyspark.sql import SQLContext

sqlContext = SQLContext(sc)

sqlContext.read.parquet("my_file.parquet")

我收到以下错误

Py4JJavaError Traceback(最近调用最后一次)/usr/local/spark/python/pyspark/sql/utils.py in deco(* a,** kw)62 try:---> 63 return f(* a,* * kw)64除了py4j.protocol.Py4JJavaError为e:/usr/local/spark/python/lib/py4j-0.10.4-src.zip/py4j/protocol.py in get_return_value(answer,gateway_client,target_id,name) 318“调用{0} {1} {2}时发生错误 . \ n” . - > 319格式(target_id,“ . ”,名称),值)320 else:

然后我尝试了以下代码

from pyspark.sql import SQLContext

sc = SparkContext.getOrCreate()

SQLContext.read.parquet("my_file.parquet")

然后错误如下:

AttributeError:'property'对象没有属性'parquet'

2 回答

  • 0

    您需要首先创建SQLContext的实例 .

    这将来自pyspark shell:

    from pyspark.sql import SQLContext
    
    sqlContext = SQLContext(sc)
    sqlContext.read.parquet("my_file.parquet")
    

    如果你使用spark-submit,你需要创建SparkContext,在这种情况下你会这样做:

    from pyspark import SparkContext
    from pyspark.sql import SQLContext
    
    sc = SparkContext()
    sqlContext = SQLContext(sc)
    sqlContext.read.parquet("my_file.parquet")
    
  • 0
    from pyspark import SparkConf, SparkContext
    from pyspark.sql import SQLContext
    sc.stop()
    conf = (conf.setMaster('local[*]'))
    sc = SparkContext(conf = conf)
    sqlContext = SQLContext(sc)
    
    df = sqlContext.read.parquet("my_file.parquet")
    

    试试这个 .

相关问题