首页 文章

将分区数据插入 Hive 的外部表中

提问于
浏览
1

关于将数据插入到外部表中,我几乎不需要澄清。

我创建了一个外部实木复合地板表,按星期将其分区到一个 Hadoop 位置,然后将数据(一个.csv 文件)移到该位置。

我的疑问是由于表是按周划分的,即使我只是将文件移动到该目录,配置单元也不会读取,因此我不得不使用 insert 命令,相比之下,当我们有一个未分区的配置单元表时,它将直接读取从那条 Hadoop 路径

1 回答

  • 1

    您需要考虑 CSV 中包含哪些数据。例如,如果按时间对定时数据进行分区,则不会将包含多个年份值的 CSV 复制到单个分区中。您将需要拆分数据集。

    即使我只是将文件移动到该目录,蜂巢也不会读取,因此我必须使用 insert 命令

    正确。特别是因为这是试图读取 CSV 的镶木地板 Serde。

    为了明确起见,如果将 Hive 放在存储为文本的表中,它将读取 CSV。

    您需要一个单独的表,您可以在其中读取文本文件,然后将其插入另一个文件中,同时转换文件格式

相关问题