你必须原谅我的noobness但我正在尝试设置一个连接到运行python脚本的cassandra的spark集群,目前我正在使用datastax enterprise在solr搜索模式下运行cassandra . 据我所知,为了使用datastax提供的spark-cassandra连接器,您必须在分析模式下运行cassandra(使用-k选项) . 目前我只使用dse spark版本才能使用它,为了使它工作,我按照下面的步骤操作:
-
在分析模式下启动dse cassandra
-
将$ PYTHONPATH env变量更改为/path/to/spark/dse/python:/path/to/spark/dse/python/lib/py4j-*.zip:$PYTHONPATH
-
以root身份运行独立脚本
python test-script.py
此外,我使用单独的spark(不是dse版本)进行了另一个测试,尝试包含使驱动程序类可访问的java包,我做了:
- 将spark.driver.extraClassPath = /path/to/spark-cassandra-connector-SNAPSHOT.jar添加到文件spark-defaults.conf 2.execute
$SPARK_HOME/bin/spark-submit —packages com.datastax.spark:spark-cassandra...
我也尝试运行pyspark shell并测试sc是否有方法cassandraTable来查看驱动程序是否已加载但是没有用完,在这两种情况下我都收到以下错误消息:
AttributeError: 'SparkContext' object has no attribute 'cassandraTable'
我的目标是要解决我必须做的事情,使非dse spark版本与cassandra连接,并使用驱动程序提供的方法 .
我还想知道是否可以将dse spark-cassandra连接器与不与dse一起运行的cassandra节点一起使用 .
谢谢你的帮助
2 回答
以下是如何在非dse版本中将spark-shell连接到cassandra .
将
spark-cassandra-connector
jar复制到spark/spark-hadoop-directory/jars/
在spark shell中执行这些命令
如果你的cassandra有密码设置等,你将不得不提供更多参数:)
我在一个独立的python脚本中使用了pyspark . 我没有't use DSE, I cloned cassandra-spark-connector from datastax'的github存储库,并使用datastax instrucctions进行编译 .
为了能够访问spark内的spark接口,我将其复制到spark安装中的jars文件夹中 .
我认为这对你也有好处:
你可以访问this,在那里我解释我自己设置环境的经验 .
一旦spark可以访问Cassandra连接器,您就可以使用pyspark库作为包装器:
在这个example中,您可以看到整个脚本 .