首页 文章
  • 1 votes
     answers
     views

    使用NiFi将数据加载到Hive的最佳方法是什么?

    我已经开始使用NiFi了 . 我正在研究一个用例来将数据加载到Hive中 . 我得到一个CSV文件,然后我使用SplitText将传入的流文件拆分为多个流文件(按记录拆分记录) . 然后我使用ConvertToAvro将拆分的CSV文件转换为AVRO文件 . 之后,我将AVRO文件放入HDFS目录中,并使用ReplaceText PutHiveQL处理器触发“LOAD DATA”命令 . 我正在按...
  • 2 votes
     answers
     views

    在分区表上的 Hive alter 语句

    我在 Hive 中有一个空的分区表,我正在尝试为表中的列以及列的顺序命名: > describe formatted test_hive; col_name data_type 评论 col1 日期 col2 字符串 col3 字符串 abc decimal(11,2) 分区信息 col_name data_type 评论 mth_year 字串 尝试将 abc 重命名为 xyz 并将其移...
  • 2 votes
     answers
     views

    PySpark HiveContext错误

    我正在尝试使用PySpark使用以下命令刷新表分区 . 我可以发出任何其他SQL命令,但 MSCK REPAIR TABLE 导致我的问题 Code: conf = SparkConf().setAppName("PythonHiveExample")\ .set("spark.executor.memory", &quo...
  • 0 votes
     answers
     views

    HIVE - 如果没有元存储它是如何工作的?

    我安装了Hive 1.2.1并配置为使用Hadoop 2.7 . 但是我没有使用Derby或MySQL为Hive设置元存储 . 而且我在$ HIVE_HOME / conf下没有hive-site.xml的副本 . 我的问题是我如何能够在Hive中创建数据库和表 . 所有这些元数据都存储在哪里? 欣赏您的洞察力 . 提前致谢 .
  • 0 votes
     answers
     views

    从 Spark 替换配置单元分区

    有没有办法可以从 Spark 程序替换(现有)配置单元分区?仅替换最新的分区,其余分区保持不变。 以下是我要尝试的想法, 我们每分钟都会从 RDBMS 系统获取进入 HDFS 的跨国数据。将有一个 spark 程序(每 5 或 10 分钟运行一次),该程序读取数据,执行 ETL 并将输出写入 Hive 表。由于覆盖整个配置单元表将是巨大的,因此我们只想覆盖当前分区的配置单元表。一天结束时,源分区和...
  • 1 votes
     answers
     views

    Hive表是从spark创建的,但在hive中不可见

    来自火花使用: DataFrame.write().mode(SaveMode.Ignore).format("orc").saveAsTable("myTableName") 表正在保存我可以看到使用下面的命令的hadoop fs -ls /apps/hive/warehouse\test.db' 其中 test 是我的数据库名称 drwxr-xr-...
  • 84 votes
     answers
     views

    Hive内部表和外部表之间的区别?

    任何人都可以告诉我Hive的外部表和内部表之间的区别 . 我知道放下 table 时会有所不同 . 我不明白你的意思是什么,数据和元数据在内部被删除,只有元数据被删除在外部表中 . 任何人都可以用节点来解释我 .
  • 0 votes
     answers
     views

    Hive分区与多个表,有什么区别?

    我有好奇心 . 我想知道hive分区和多个表的区别 . 我已经知道分区的目的是减少查询对象 . 我在分区和多个表之间这是相同的 . 有什么区别?
  • 1 votes
     answers
     views

    分区和分区Hive Table有什么好处?

    同时对Hive表进行分区和分区的好处是什么?我有一个表"Orders",其中包含1M条记录,但记录来自6个特定城市 . 现在,如果我只根据城市打开我的 table Orders ,我的仓库目录(在Hive中)有6个不同的文件夹,每个文件夹对应一个特定的城市和数据 . 当我分区然后将我的表 Orders 分区时,我仍然可以在hive下的仓库目录中看到相同的6个文件夹 . 我尝试...
  • -1 votes
     answers
     views

    确定hive表中的桶数?

    我有两个蜂巢表,其体积相等 .记录数(Aprox):5779062484两个表都有3个键:loc_id(int),item_id(int),week_detail(string)我基于上面的键加入(内连接)两个表,结果数据大小相同 . 例如5779062484加入的总时间是aprox . 3小时 .我想把两个表都打乱,然后加入以提高性能 .我应该使用多少桶和多少列?我只是在内连接的基础上直接从两...
  • 0 votes
     answers
     views

    Hive - 选择计数(*)不与Tez一起使用但与MR配合使用

    我有一个带有镶木地板数据的Hive外部表 . 当我运行 select count(*) from table1 时,它与Tez失败 . 但是当执行引擎更改为MR时,它可以工作 . 知道为什么Tez失败了吗?我在Tez遇到以下错误: 错误:org.apache.hive.service.cli.HiveSQLException:处理语句时出错:FAILED:执行错误,从org.apache上的or...

热门问题