首页 文章

从 Spark 替换配置单元分区

提问于
浏览
0

有没有办法可以从 Spark 程序替换(现有)配置单元分区?仅替换最新的分区,其余分区保持不变。

以下是我要尝试的想法,

我们每分钟都会从 RDBMS 系统获取进入 HDFS 的跨国数据。将有一个 spark 程序(每 5 或 10 分钟运行一次),该程序读取数据,执行 ETL 并将输出写入 Hive 表。由于覆盖整个配置单元表将是巨大的,因此我们只想覆盖当前分区的配置单元表。一天结束时,源分区和目标分区将更改为第二天。

提前致谢

1 回答

  • 0

    如您所知,配置单元表的位置是在表按日期分区时将 currentdate 附加到该位置,并覆盖 hdfs 路径。

    df.write.format(source).mode("overwrite").save(path)
    

    Msck repair hive table

    一旦完成

相关问题