首页 文章

从KuduRDD过滤发生在Spark Application或Kudu Server中?

提问于
浏览
0

如果我在KuduRDD上执行Filter,那么首先Spark作业读取Kudu表中的所有数据并在Spark应用程序中执行过滤作业,或者在Kudu Server上进行过滤,Spark应用程序只接收过滤后的数据?

1 回答

  • 1

    使用 RDD 将首先将所有数据提取到Spark . kuduRDD 仅返回plain RDD[Row]

    def kuduRDD(sc: SparkContext,
                tableName: String,
                columnProjection: Seq[String] = Nil): RDD[Row] = { ...
    

    之后没有特别的优化 .

    使用 Dataframe API,根据Up and running with Apache Spark on Apache Kudu,可以下推以下谓词:

    等于(=)大于(>)大于或等于(> =)小于(<)小于或等于(<=)

相关问题