分解 Spark RDD-Java 学习之路

在 Spark 中，可以使用 zip，union，join 等将多个 RDD 组合为一个。

是否可以有效分解 RDD？也就是说，是否不对原始 RDD 执行多次传递？我正在寻找的东西类似于：

val rdd: RDD[T] = ...     
val grouped: Map[K, RDD[T]] = rdd.specialGroupBy(...)

RDD 的优势之一是它们使高效地执行迭代计算成为可能。在我遇到的某些(机器学习)用例中，我们需要分别对每个组执行迭代算法。

我知道的当前可能性是：

给定一个非常大的(表格)数据集，我正在考虑的一些用例：

1 回答

0

我认为最好的选择是一次将数据写到每个键一个文件(请参见通过键 Spark 写入多个输出-一个 Spark 作业)，然后将 per-key 个文件加载到一个 RDD 中。

回复于 2024-04-28T07:03:00+08:00