从KuduRDD过滤发生在Spark Application或Kudu Server中？

提问于 2024-04-26T19:15:14+08:00

浏览次

0

如果我在KuduRDD上执行Filter，那么首先Spark作业读取Kudu表中的所有数据并在Spark应用程序中执行过滤作业，或者在Kudu Server上进行过滤，Spark应用程序只接收过滤后的数据？

1 回答

1
使用 RDD 将首先将所有数据提取到Spark . kuduRDD 仅返回plain RDD[Row]：
```
def kuduRDD(sc: SparkContext,
            tableName: String,
            columnProjection: Seq[String] = Nil): RDD[Row] = { ...
```
之后没有特别的优化 .

使用 Dataframe API，根据Up and running with Apache Spark on Apache Kudu，可以下推以下谓词：

等于（=）大于（>）大于或等于（> =）小于（<）小于或等于（<=）
回复于 2024-04-26T19:15:14+08:00

相关问题