首页 文章
  • 0 votes
     answers
     views

    无法修复Amazon Athena中的分区

    我最近一直致力于一个项目,该项目涉及使用Glue托管服务在Amazon S3中抓取数据 . 这成功地创建了一个我可以在Glue控制台上看到的Metastore . 我通过控制台手动解析的架构中存在错误,例如: STRING - > TIMESTAMP,BIGINT - > STRING等 . 似乎是从S3路径中的键自动创建分区 . 即我在s3中对象的键是这样的: s3://mybu...
  • 1 votes
     answers
     views

    在Athena中读取不一致的嵌套JSON

    在Athena中,我正在将一些嵌套的JSON文件读入表中 . 实际包含嵌套JSON的字段在原始数据中的不同文件中具有不一致的字段数 . 有时数据看起来像这样: { "id": "9f1e07b4", "date": "05/20/2018 02:30:53.110 AM", ...
  • 0 votes
     answers
     views

    将单个列文件连接到单个AWS Glue表中

    我正在从API下载带有发电厂数据的文件 . 我的目标是将这些文件存储在S3中,使用Glue生成表格,使用Athena查询它们 . API限制我为一个发电厂下载24小时的数据,所以我需要循环数百个发电厂和1000天才能获得所有数据 . 我希望以这样的方式存储这些文件,即Glue将为每个国家/地区创建一个表,其中每个发电厂都是一列,而日期时间则被视为一个分区 . 我尝试过的所有文件密钥最终都使用电厂...
  • 0 votes
     answers
     views

    ODI和Hive配置

    我在Oracle VirtualBox VM上运行了“Cloudera CDH 4.4.0” . 我在Hive中有几个表要加载到ODI中 . 我在home cloudera目录下安装了ODI 11.1.1.7 . 我已将所有必要的jar文件复制到“userlib”目录中 . 创建与Hive的连接所遵循的步骤: - 导入的“Hive”技术,使用必要的JDBC驱动程序设置数据服务器 . 提到了jdbc...
  • 0 votes
     answers
     views

    从netezza导入Hive时间戳

    我将Netezza数据库转换为Hive目标数据库,但是当它涉及时间戳时我一直遇到问题 . ETL到Netezza的源数据库是Oracle,其中的“日期”存储为varchar . 当Etled到Netezza时,他们会经历转换为netezza格式并被正确接受 . 当从Netezza将数据提取到hive时,我从java.sql.Timestamp获得一个异常,即时间戳不是适当的格式 . 注意:由于此...
  • -5 votes
     answers
     views

    Hive - 运行Java代码时的依赖关系

    运行以下代码需要什么设置和jar文件 . 我有jdk1.8.0_05,Hadoop 2.2.0和Hive 0.12.0 . 请帮忙 . 我试图在eclipse上运行此代码,但它没有编译 . 我已经添加了大约15个外部 jar 但没有用 import java.sql.SQLException; import java.sql.Connection; import java.sql.ResultSe...
  • 0 votes
     answers
     views

    配置单元启动时出错 - 线程“main”中的异常java.lang.NoClassDefFoundError:org / apache / hadoop / util / PlatformName

    我试图在CDH 4.2中启动Hive,我遇到了以下问题 hive Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/util/PlatformName Caused by: java.lang.ClassNotFoundException: org.apache.hadoop...
  • 3 votes
     answers
     views

    无法创建数据库路径文件:/ user / hive / warehouse错误

    我有一个3节点集群,我在运行一些HIVE查询时遇到以下错误 FAILED:元数据错误:MetaException(消息:无法创建数据库路径文件:/user/hive/warehouse/db_dut.db,无法创建数据库db_dut)FAILED:执行错误,从org.apache.hadoop返回代码1 . hive.ql.exec.DDLTask 我的hive-site.xml包含以下属性...
  • 0 votes
     answers
     views

    将参数作为json查询模板的postman中的表达式传递

    大家好,我试图在postman中传递参数来运行一些查询模板,这些模板基本上是hive / sql查询 . 这就是TemplateTable.json(这是一个查询模板)如何传递参数从postman看执行看起来喜欢 [ { "templateId": "TemplateTable", "description": &qu...
  • 0 votes
     answers
     views

    sqoop命令中映射器数量的增加会导致java堆空间错误

    我使用sqoop 1.4.5-cdh5.2.1和oracle . 我从oracle导入一小组115k的记录 . Sqoop命令在将-num-mappers设置为5时工作正常 . 但是当我将它设置为5以上时,我得到了JAVA HEAP SPACE的错误 . 任何人都可以告诉它,为什么会发生这种情况 . LOG 异常螺纹"main" java.lang.OutOfMemoryEr...
  • -1 votes
     answers
     views

    成功映射后sqoop导出失败

    1.sqoop export --connect jdbc:mysql://localhost:3306/hduser_db --username hduser --password hduser --table export --export-dir /user/hive/warehouse/three -- fields-terminated-by ',' 17/09/13 14:...
  • 0 votes
     answers
     views

    sqoop到mysql导入问题

    我使用以下命令将数据从mysql表提取到配置单元表: sqoop import \ --connect jdbc:mysql://xx.xx.xx.xx/orderdbms \ --username=orderuser \ --password=orderpass \ --table=order \ --where="DATE(created)='2015-08-20'" \ ...
  • 0 votes
     answers
     views

    使用Sqoop创建/导入配置单元表

    当我使用下面的import命令时,它允许我创建表并从mysql导入数据到Hive,我可以在Hive中看到表“小部件” . sqoop import --connect jdbc:mysql://localhost:3306/hadoopguide --table widgets --username <username> --password <password> --sp...
  • 0 votes
     answers
     views

    使用Sqoop将Hive Table导出到包含CLOB的Oracle

    我正在尝试使用Sqoop导出Hive表 . 目前我的Hive表有一个包含冗长字符串内容的列,其中包含超过4000个字节的字符,因此我们必须将Oracle中的该列映射为CLOB,因为varchar最大长度为4000字节 . 但是当我运行sqoop导出时,虽然我看到在Oracle中填充了CLOB列为null,但是成功完成了Jobs . 用于导出的命令: sqoop export --connect x...
  • 0 votes
     answers
     views

    弹性映射减少JSON导出到DynamoDB错误AttributeValue可能不包含空字符串

    我正在尝试使用来自S3中包含稀疏字段的JSON文件的EMR作业来导入数据,例如一个ios_os字段和android_os但只有一个包含数据 . 有时数据为空,有时它是一个空字符串,当尝试插入DynamoDB时我收到错误(虽然我能够插入一些稀疏填充的记录): “AttributeValue可能不包含空字符串”{“created_at_timestamp”:1358122714,...,“data”...
  • 3 votes
     answers
     views

    将CSV文件(包含空字符串和重复项)导入DynamoDB

    我有一个CSV文件,我正在尝试导入到Amazon DynamoDB . 所以我将它上传到S3,设置一个EMR集群,并创建一个这样的外部表: hive> CREATE EXTERNAL TABLE s3_table_myitems (colA BIGINT, colB STRING, colC STRING, colD DOUBLE, colE DOUBLE, colF STRING, col...
  • 1 votes
     answers
     views

    Oozie工作流hive动作陷入RUNNING

    我从Hortonworks发行版运行Hadoop 2.4.0,Oozie 4.0.0,Hive 0.13.0 . 我有多个Oozie协调员工作,可以在同一时间启动工作流程 . 每个协调器作业都会监视不同的目录,当_SUCCESS文件显示在这些目录中时,将启动工作流程 . 工作流运行Hive操作,该操作从外部目录读取并复制内容 . SET hive.exec.dynamic.partition=tr...
  • 2 votes
     answers
     views

    如何将Oozie配置传递给工作流操作,例如Hive?

    如何将Oozie配置值传递给工作流操作? 例如,Oozie知道作业跟踪器URL: # oozie admin -oozie localhost:10000 -configuration | fgrep tracker oozie.actions.default.job-tracker : server1:8080 现在在workflow.xml中,我们发现: <action name=&q...
  • 0 votes
     answers
     views

    运行Hive On Spark的SPARK_RPC_CLIENT_CONNECT_TIMEOUT - YARN群集模式

    我正在使用HDP2.3并尝试使用Spark(1.3.1)作为运行配置单元查询的执行引擎 . hive / lib文件夹中也提供了spark-assembly jar . 我可以在spark-master:local中运行查询,但在使用spark-master:yarn-cluster时遇到以下问题 . 命令运行, hive -e“set hive.execution.engine = spar...
  • 6 votes
     answers
     views

    无法从SparkR创建的DataFrame中检索数据

    我有以下简单的 SparkR 程序,即创建 SparkR DataFrame 并从中检索/收集数据 . Sys.setenv(HADOOP_CONF_DIR = "/etc/hadoop/conf.cloudera.yarn") Sys.setenv(SPARK_HOME = "/home/user/Downloads/spark-1.6.1-bin-hadoop2....
  • -1 votes
     answers
     views

    了解Spark SQL的架构[关闭]

    我不确定我是否理解Spark SQL的工作原理 . 例如,我不清楚是否需要在群集上安装hadoop和hive . 从文档中看,您需要做的就是下载spark并将其安装在您要使用的所有计算机上(如果您希望连接到配置单元仓库,则使用hive选项进行编译) . 此外,如果不需要连接到已经存在的配置单元仓库,那么在我看来,加载数据的唯一方法是通过RDD,Parquet和JSON . 我的整体理解是否正确?
  • 0 votes
     answers
     views

    Hadoop 2.7,Spark,Hive,JasperReports,Scoop - Architecuture

    首先,这不是一个问题,请求帮助逐步部署以下组件 . 我计划做的是使用现有数据开发报告平台 . 以下是我通过研究收集的数据 . 我有一个现有的RDBMS,它有大量的记录 . 所以我正在使用 Scoop - 将数据从RDBMS提取到Hadoop Hadoop - 存储平台 Hive - Datawarehouse Spark - 由于Hive更像是批处理,Hive上的Spar...
  • 0 votes
     answers
     views

    如何使用Scala Eclipse IDE连接到现有的Hive

    我在笔记本电脑中设置了以下内容 . Apache 2.7.1 Hadoop,单节点 Hive 2.1.0在MySQL上使用Metastore在本地模式下运行 . 它不是在thriftserver模式下 Spark 2.0.0 Scala 2.1.1 我把hive-site.xml从hive / conf放到了spark / conf . 当我转到spark-shell时,我可以...
  • 2 votes
     answers
     views

    从spark连接时,Hive权限被拒绝错误

    我从Spark连接到Hive Metastore并执行“创建外部表”语句 . 我收到这个错误 org.apache.hadoop.hive.ql.metadata.HiveException:MetaException(消息:java.security.AccessControlException:Permission denied:user = hive,access = WRITE,inod...
  • 2 votes
     answers
     views

    在配置单元中通过Java创建数据库时权限被拒绝错误

    我试图使用java在hive中创建数据库 . 但是我在运行代码时遇到了这个错误: 线程“main”中的异常java.sql.SQLException:处理语句时出错:FAILED:执行错误,从org.apache.hadoop.hive.ql.exec.DDLTask返回代码1 . MetaException(消息:得到异常:org.apache.hadoop.security.AccessC...
  • 0 votes
     answers
     views

    带分区的外部配置单元 - 当我添加具有读访问权限的数据的分区时,权限错误

    我收到以下错误:FAILED:执行错误,从org.apache.hadoop.hive.ql.exec.DDLTask返回代码1 . MetaException(消息:得到异常:org.apache.hadoop.security.AccessControlException权限被拒绝: 当我尝试在hdfs中使用数据外部创建hive表时 . 我只是具有读访问权限而不是写访问权限,这是一个问题吗?...
  • 2 votes
     answers
     views

    PIG - 找到接口org.apache.hadoop.mapreduce.JobContext,但是期望了类

    我试图从蜂巢中加载一张 table . 我正在使用Hcatalog . 我使用登录hive pig -useHCatalog 我从蜂房和hadoop出口几乎所有的 jar register 'hdfs://localhost:8020/user/pig/jars/hive-jdbc-0.10.0-cdh4.5.0.jar'; register 'hdfs://localhost:8020/us...
  • 1 votes
     answers
     views

    Hadoop 2.4:java.lang.NoClassDefFoundError:org / apache / hcatalog / mapreduce / InputJobInfo

    我已经从Hortonworks升级到最近的Hadoop: Hadoop 2.4.0.2.1.2.1-471 Subversion git@github.com:hortonworks/hadoop.git -r 9e5db004df1a751e93aa89b42956c5325f3a4482 Compiled by jenkins on 2014-05-27T18:57Z Compiled wit...
  • 1 votes
     answers
     views

    Hcatalog蜂巢问题

    我试图通过以下链接执行此操作 hcatalog 示例: http://www.cloudera.com/content/cloudera/en/documentation/cdh4/v4-2-0/CDH4-Installation-Guide/cdh4ig_topic_19_6.html 我在运行这份工作时遇到以下异常 . Exception in thread "main" ...
  • 1 votes
     answers
     views

    猪没有使用Hcatalog找到Hive Table

    我使用PIG访问通过HCatalog创建的表batting_data . 在这样做时,我面临一个错误,说没有找到提到的表 . 但是,这个batting_data表可用于HIVE . 我也明白,如果没有提到数据库名称,则假定为default . ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1115: Table not found : default...

热门问题