如何将Cassandra设置为我的Spark Cluster的分布式存储（文件系统）

提问于 2024-04-19T03:45:41+08:00

浏览次

0

我是大数据和Spark（pyspark）的新手 . 最近我刚刚设置了一个spark集群，并希望在我的spark集群上使用Cassandra文件系统（CFS）来帮助上传文件 .

任何人都可以告诉我如何设置它并简要介绍如何使用CFS系统？（比如如何上传文件/从哪里）

顺便说一下，我甚至不知道如何使用HDFS（我下载了预先构建的spark-bin-hadoop但我在我的系统中找不到hadoop . ）

提前致谢！

1 回答

1

CFS仅存在于DataStax Enterprise中，不适用于大多数分布式文件应用程序 . 它主要用于替代HDFS用于map / reduce作业和小型临时但分布式文件 .

要使用它，只需使用CFS：// uri并确保从应用程序中使用 dse spark-submit .

回复于 2024-04-19T03:45:41+08:00

相关问题