-
1 votesanswersviews
Hive表是从spark创建的,但在hive中不可见
来自火花使用: DataFrame.write().mode(SaveMode.Ignore).format("orc").saveAsTable("myTableName") 表正在保存我可以看到使用下面的命令的hadoop fs -ls /apps/hive/warehouse\test.db' 其中 test 是我的数据库名称 drwxr-xr-... -
1 votesanswersviews
通过spark工作创建配置表
我试图在hadoop集群(BigInsight 4.1发行版)上创建hive表作为我的spark(1.5.1版本)作业的输出,并且我正面临权限问题 . 我的猜测是spark使用默认用户(在这种情况下是'yarn'而不是作业提交者的用户名)来创建表,因此无法这样做 . 我尝试自定义hive-site.xml文件以设置具有创建配置单元表权限的经过身份验证的用户,但这不起作用 . 我还尝试将Hadoop... -
0 votesanswersviews
无法通过更改hive-site.xml来连接spark-HiveContext来运行配置单元
下面是我的hive / conf / hive-site.xml: <configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://127.0.0.1/metastore?createData... -
2 votesanswersviews
无法使用Spark从HiveContext获取现有Hive表
我正在尝试使用HiveContext从spark获取Hive的数据库或表详细信息 . 但我无法指向现有的Hive数据库,如下所示:Spark版本:2.2.0 Hive版本:2.3.0 使用Spark Shell中的以下脚本连接到现有的Hive Server(下面使用的127.0.0.1是我的机器ip地址): scala> val hc = new org.apache.spark.sql.h... -
1 votesanswersviews
使用pyspark hive上下文连接两个表
使用pyspark hive上下文连接两个配置单元表时,我看到下面的错误 . 错误: “”“)文件”/usr/hdp/2.3.4.7-4/spark/python/lib/pyspark.zip/pyspark/sql/context.py“,第552行,在sql文件中”/usr/hdp/2.3 .4.7-4 / spark / python / lib / py4j-0.8.2.1-src.z... -
0 votesanswersviews
Pyspark:在动态配置单元查询中获取current_timestamp
我正在使用python程序准备Spark,它根据连接从2个表中插入数据 . 目标表的最后一列有一个时间戳字段,其值为create timestamp . 我尝试了current_timestamp和from_unixtime(unix_timestamp()) . 这两个功能似乎都不起作用 . 我现在试过() . 例如,HiveContext(sc).sql(“SELECT”from_unixti... -
0 votesanswersviews
使用spark 1.6.0通过thrift连接远程不同Kerberized集群中的hive表
我有一个场景,使用spark 1.6.0使用hivecontext.sql()连接远程集群中的两个不同的hive表? 我有cloudera env,其中整个集群Auth机制是Kerboros,需要使用spark的解决方案我应该连接到两个不同的远程环境(DEV-UAT,DEV-PRD,UAT-SIT)? 已经在Stackoverflow中提到了很多例子并尝试了很多样本,但直到现在还没有解决方案? 欢... -
0 votesanswersviews
Uisng Hive上下文,在本地系统metastore_db中本地创建Hive表而不是在Cluster上,在哪里放置我的hive-site.xml
我创建了一个Spark Context对象,并尝试从hadoop服务器上的文本文件中检索文本(不在我的本地),我能够检索它 . 当我试图检索Hive Table(它位于独立的机器,群集上)时,我无法做到,当我创建一个hive表时,它会在metastore_db中本地创建 objHiveContext.sql(“创建表yahoo_orc_table(日期STRING,open_price FLOAT... -
3 votesanswersviews
Hive表的字段分隔符不被spark HiveContext识别
我创建了一个hive外部表,存储为由event_date Date分区的文本文件 . 在从Hive表中读取spark时,我们如何指定特定格式的csv? 环境是 1. 1.Spark 1.5.0 - cdh5.5.1 Using Scala version 2.10.4(Java HotSpot(TM) 64 - Bit Server VM, Java 1.7.0_67) 2. Hive 1... -
0 votesanswersviews
使用在spark 2.3.0上创建的配置单元上下文查询配置单元数据库
我可以使用以下命令在spark 1.6.0上以编程方式创建一个hive上下文: val conf = new SparkConf().setAppName("SparkTest").setMaster("local") val sc=new SparkContext(conf) val hc = new HiveContext(sc) val actualR... -
1 votesanswersviews
使用spark hivecontext读取外部hive分区表的问题
我有一个外部的hive分区表,我试图使用HiveContext从Spark读取 . 但我得到空值 . val maxClose = hiveContext.sql(“从stock_partitioned_data中选择max(Close),其中symbol ='AAPL'”); maxClose.collect() . foreach(println) ===== scala> impo... -
0 votesanswersviews
Ubuntu上的Spark 1.5 - HiveContext不起作用
我在谷歌计算引擎上部署了带有bdutil的hadoop集群 .我的配置 操作系统:Ubuntu 14 Spark:1.5 蜂巢:0.12 1个主节点和2个工作人员 Hive Metastore配置: 我将 hive-site.xml 从配置单元复制到 $SPARK_HOME/conf/hive-site.xml (仅在主节点上) 当我尝试在Pyspark shell中使用HiveContext...