我正在使用cassandra 2.0.3,我想使用pyspark(Apache Spark Python API)从cassandra数据创建一个RDD对象 .
请注意:我不想从pyspark API执行导入CQL和CQL查询,而是想创建一个RDD,我想在其上做一些转换 .
我知道这可以在Scala中完成,但我无法找到如何通过pyspark完成 .
真的很感激,如果有人能指导我这个 .
可能与你不相关,但我一直在寻找同样的东西,找不到任何我满意的东西 . 所以我做了一些工作:https://github.com/TargetHolding/pyspark-cassandra . 在 生产环境 中使用之前需要进行大量测试,但我认为集成非常有效 .
我不确定你是否看过这个例子https://github.com/apache/spark/blob/master/examples/src/main/python/cassandra_inputformat.py我从Cassandra那里读过类似的图片
2 回答
可能与你不相关,但我一直在寻找同样的东西,找不到任何我满意的东西 . 所以我做了一些工作:https://github.com/TargetHolding/pyspark-cassandra . 在 生产环境 中使用之前需要进行大量测试,但我认为集成非常有效 .
我不确定你是否看过这个例子https://github.com/apache/spark/blob/master/examples/src/main/python/cassandra_inputformat.py我从Cassandra那里读过类似的图片