使用Spark和Cassandra进行文件处理

提问于 2024-04-25T07:45:58+08:00

浏览次

0

现在我正在使用Datastax Cassandra Spark Connector将Cassandra集群中的表加载到Spark集群中 . 现在，spark程序执行一个简单的mapreduce作业，该作业计算Cassandra表中的行数 . 一切都在本地设置和运行 .

Spark程序适用于一个小的Cassandra表，它有一个String键作为唯一的列 . 当我们加载另一个具有列String id的表和一个由文件数据组成的blob时，我们会得到几个错误（spark worker中的期货超时错误，驱动程序的stdout上的java内存不足异常） .

我的问题是Spark是否可以从Cassandra加载包含大约1MB blob的元素并在它们上执行mapreduce作业，或者在使用Spark mapreduce作业处理之前是否应该将元素分成更小的部分 .

1 回答

0

最初我使用'sbt run'来启动应用程序 .

一旦我能够使用spark-submit启动应用程序，一切正常 . 所以是的，10 MB以下的文件可以存储为blob类型的列 . Spark MapReduce快速运行了200行 .

回复于 2024-04-25T07:45:58+08:00

相关问题