首页 文章

Spark结构化流写入流到Hive ORC分区外部表

提问于
浏览
3

我正在尝试使用Spark Structured Streaming - writeStream API来写入外部分区的Hive表 .

CREATE EXTERNAL TABLE `XX`(
`a` string,
`b` string,
`b` string,
`happened` timestamp,
`processed` timestamp,
`d` string,
`e` string,
`f` string )
 PARTITIONED BY (
`year` int, `month` int, `day` int)      
 CLUSTERED BY (d)
INTO 6 BUCKETS
STORED AS ORC 
TBLPROPERTIES (
'orc.compress'='ZLIB',
'orc.compression.strategy'='SPEED',
'orc.create.index'='true',
'orc.encoding.strategy'='SPEED');

并在Spark代码中,

val hiveOrcWriter:   DataStreamWriter[Row] = event_stream
  .writeStream
  .outputMode("append")
  .format("orc")
  .partitionBy("year","month","day")
  //.option("compression", "zlib")
  .option("path", _table_loc)
  .option("checkpointLocation", _table_checkpoint)

我看到在非分区表上,记录被插入到Hive中 . 但是,在使用分区表时,spark作业不会失败或引发异常,但记录不会插入Hive表 .

感谢处理类似问题的任何人的评论 .

Edit

刚刚发现.orc文件确实写入HDFS,具有正确的分区目录结构:例如 . /_table_loc/_table_name/year/month/day/part-0000-0123123.c000.snappy.orc

然而

select * from 'XX' limit 1; (or where year=2018)

不返回任何行 .

表'XX'的 InputFormatOutputFormat 分别为 org.apache.hadoop.hive.ql.io.orc.OrcInputFormatorg.apache.hadoop.hive.ql.io.orc.OrcOutputFormat .

1 回答

  • 0

    结构化流式传输中不提供此功能 . 在正常处理中,您将使用 dataset.write.saveAsTable(table_name) ,并且该方法不可用 .

    在HDFS中处理并保存数据后,您可以手动更新分区(或使用按计划执行此操作的脚本):

    如果你使用Hive

    MSCK REPAIR TABLE table_name
    

    如果你使用Impala

    ALTER TABLE table_name RECOVER PARTITIONS
    

相关问题