我需要将我的独立Spark连接到python中的Cassandra实例 . 我从Apache website下载了Apache spark,提取并构建它:
tar -xvf spark-1.4.1.tgz
sbt/sbt assembly
我添加了更新的./bashrc文件,我可以运行Spark . 我也有Cassandra设置,我可以从我的python程序中提取数据 .
如何将Spark连接到Cassandra实例以访问Cassandra表作为Spark RDD?
我需要将我的独立Spark连接到python中的Cassandra实例 . 我从Apache website下载了Apache spark,提取并构建它:
tar -xvf spark-1.4.1.tgz
sbt/sbt assembly
我添加了更新的./bashrc文件,我可以运行Spark . 我也有Cassandra设置,我可以从我的python程序中提取数据 .
如何将Spark连接到Cassandra实例以访问Cassandra表作为Spark RDD?
1 回答
可通过Spark Cassandra Connector获得DataFrame兼容接口https://github.com/datastax/spark-cassandra-connector/blob/master/doc/15_python.md
基于包装连接器的RDD接口也可用https://github.com/TargetHolding/pyspark-cassandra
在这两种情况下,您最终都会将package / lib添加到您的应用程序中
并指定您的Cassandra连接主机
Dataframes(需要Spark Cassandra连接器)
RDDs(需要Pyspark-Cassandra)