首页 文章

Python中的Spark cassandra连接器

提问于
浏览
1

我需要将我的独立Spark连接到python中的Cassandra实例 . 我从Apache website下载了Apache spark,提取并构建它:

tar -xvf spark-1.4.1.tgz
sbt/sbt assembly

我添加了更新的./bashrc文件,我可以运行Spark . 我也有Cassandra设置,我可以从我的python程序中提取数据 .

如何将Spark连接到Cassandra实例以访问Cassandra表作为Spark RDD?

1 回答

  • 0

    可通过Spark Cassandra Connector获得DataFrame兼容接口https://github.com/datastax/spark-cassandra-connector/blob/master/doc/15_python.md

    基于包装连接器的RDD接口也可用https://github.com/TargetHolding/pyspark-cassandra

    在这两种情况下,您最终都会将package / lib添加到您的应用程序中

    --packages or --jars
    

    并指定您的Cassandra连接主机

    --conf spark.cassandra.connection.host=yourhost
    

    Dataframes(需要Spark Cassandra连接器)

    sqlContext.read\
        .format("org.apache.spark.sql.cassandra")\
        .options(table="kv", keyspace="test")\
        .load().show()
    

    RDDs(需要Pyspark-Cassandra)

    sc.cassandraTable("keyspace", "table")
    

相关问题