如果我在KuduRDD上执行Filter,那么首先Spark作业读取Kudu表中的所有数据并在Spark应用程序中执行过滤作业,或者在Kudu Server上进行过滤,Spark应用程序只接收过滤后的数据?
使用 RDD 将首先将所有数据提取到Spark . kuduRDD 仅返回plain RDD[Row]:
RDD
kuduRDD
def kuduRDD(sc: SparkContext, tableName: String, columnProjection: Seq[String] = Nil): RDD[Row] = { ...
之后没有特别的优化 .
使用 Dataframe API,根据Up and running with Apache Spark on Apache Kudu,可以下推以下谓词:
Dataframe
等于(=)大于(>)大于或等于(> =)小于(<)小于或等于(<=)
1 回答
使用
RDD
将首先将所有数据提取到Spark .kuduRDD
仅返回plain RDD[Row]:之后没有特别的优化 .
使用
Dataframe
API,根据Up and running with Apache Spark on Apache Kudu,可以下推以下谓词: