首页 文章

如何将Cassandra设置为我的Spark Cluster的分布式存储(文件系统)

提问于
浏览
0

我是大数据和Spark(pyspark)的新手 . 最近我刚刚设置了一个spark集群,并希望在我的spark集群上使用Cassandra文件系统(CFS)来帮助上传文件 .

任何人都可以告诉我如何设置它并简要介绍如何使用CFS系统? (比如如何上传文件/从哪里)

顺便说一下,我甚至不知道如何使用HDFS(我下载了预先构建的spark-bin-hadoop但我在我的系统中找不到hadoop . )

提前致谢!

1 回答

  • 1

    CFS仅存在于DataStax Enterprise中,不适用于大多数分布式文件应用程序 . 它主要用于替代HDFS用于map / reduce作业和小型临时但分布式文件 .

    要使用它,只需使用CFS:// uri并确保从应用程序中使用 dse spark-submit .

相关问题