在 pyspark 中过滤 Hive 分区表-Java 学习之路

我有一个蜂巢表，在许多国家/地区都有分布。我想将特定的分区数据加载到我的数据框中，如下所示：

df=spark.read.orc("/apps/hive/warehouse/emp.db/partition_load_table").where('country="NCL"' && 'county="RUS"')

尽管我能够为单个分区加载，但这给了我一个错误。

下面是我在 hdfs 中的目录结构

/apps/hive/warehouse/emp.db/partition_load_table/country=NCL

df=spark.read.orc("/apps/hive/warehouse/emp.db/partition_load_table").where('country="NCL"')

1 回答