首页 文章

使用Spark和Cassandra进行文件处理

提问于
浏览
0

现在我正在使用Datastax Cassandra Spark Connector将Cassandra集群中的表加载到Spark集群中 . 现在,spark程序执行一个简单的mapreduce作业,该作业计算Cassandra表中的行数 . 一切都在本地设置和运行 .

Spark程序适用于一个小的Cassandra表,它有一个String键作为唯一的列 . 当我们加载另一个具有列String id的表和一个由文件数据组成的blob时,我们会得到几个错误(spark worker中的期货超时错误,驱动程序的stdout上的java内存不足异常) .

我的问题是Spark是否可以从Cassandra加载包含大约1MB blob的元素并在它们上执行mapreduce作业,或者在使用Spark mapreduce作业处理之前是否应该将元素分成更小的部分 .

1 回答

  • 0

    最初我使用'sbt run'来启动应用程序 .

    一旦我能够使用spark-submit启动应用程序,一切正常 . 所以是的,10 MB以下的文件可以存储为blob类型的列 . Spark MapReduce快速运行了200行 .

相关问题