我是大数据和Spark(pyspark)的新手 . 最近我刚刚设置了一个spark集群,并希望在我的spark集群上使用Cassandra文件系统(CFS)来帮助上传文件 .
任何人都可以告诉我如何设置它并简要介绍如何使用CFS系统? (比如如何上传文件/从哪里)
顺便说一下,我甚至不知道如何使用HDFS(我下载了预先构建的spark-bin-hadoop但我在我的系统中找不到hadoop . )
提前致谢!
CFS仅存在于DataStax Enterprise中,不适用于大多数分布式文件应用程序 . 它主要用于替代HDFS用于map / reduce作业和小型临时但分布式文件 .
要使用它,只需使用CFS:// uri并确保从应用程序中使用 dse spark-submit .
dse spark-submit
1 回答
CFS仅存在于DataStax Enterprise中,不适用于大多数分布式文件应用程序 . 它主要用于替代HDFS用于map / reduce作业和小型临时但分布式文件 .
要使用它,只需使用CFS:// uri并确保从应用程序中使用
dse spark-submit
.