-
2 votesanswersviews
如何安装和配置Apache Atlas的最小系统?
我是学生,这些问题让我感到沮丧数周,请帮助我 . 根据某个社区的开发人员的说法,运行Atlas需要Hive,即Atlas的最小系统必须由Atlas,Hive,Hadoop和MySQL等RDBMS组成 . 我也做了很多研究,并阅读了https://github.com/shivajid/atlas上的教程 . 但本教程基于HDP,我的老师要求我自己配置最小系统 . 我模仿了上面提到的shivajid... -
0 votesanswersviews
在horton工程沙盒中运行map reduce hdfs进入安全模式后
我得到的错误如下,在写入输出文件时是否由于复制不足或过度而发生此错误? 找不到工作申请_1417871611451_0016 . 这份工作可能还没有运行 . 找不到作业job_1417871611451_0016:{“RemoteException”:{“exception”:“NotFoundException”,“message”:“java.lang.Exception:job,job_1... -
0 votesanswersviews
HBase(Hortonworks)访问被拒绝例外
我们在Hortonworks环境中使用HBase作为我们的存储选择 . 我们有一个节点正在运行,如果一切正常,我们计划升级到多个节点 . 目前,我们使用Knox SSO登录服务 . 要访问HBase中的数据,我们使用WebHBase api . 通过Knox SSO登录工作正常 . 我们用来执行此操作的用户(“testuser”)具有在Ranger中配置的Hbase的完全访问权限 . 但是,当我们... -
1 votesanswersviews
pig - 从远程hbase服务器读取/写入数据
我想从pig脚本读取/写入hbase远程服务器的数据 . 我们正在使用Hortonworks HDP 2.5 以下是场景 . 我们有两个集群,一个用于Hive,另一个用于Hbase . 我们可以访问作为Hive集群一部分的边缘节点 . 我们的代码(MapReduce作业和Pig脚本)将在Hive集群上执行 . 作为需求的一部分,我们还必须从Hbase表读取/写入数据 . 我们在网上找到了一个解决方... -
0 votesanswersviews
pyspark-shell中df = sqlContext.read.json(rdd)中的执行错误
数据框创建中的Pyspark问题 . HDP集群(hdp 2.4,hadoop 2.7和spark 1.6.0)我面临的问题是在创建数据帧时使用PySpark . 对于Scala Shell: val q=sc.parallelize(Seq("""{"From": " Ragaraju","Cc":&qu... -
1 votesanswersviews
通过在HDP群集外部运行的Java应用程序与Kerberized HBase的连接问题
我们有一个在Liberty IBM WebSphere服务器上运行的Java应用程序,并尝试连接到HDP集群上的HBase以保留一些数据 . 现在我们面临着在HDP集群上连接到HBase(kerberized)的问题 . 我们已经能够通过Spark,Storm或在集群中运行的应用程序连接到HBase,但由于我们正处于集群外部而面临问题 . 我们尝试了多种方法并遵循这些链接https://commu... -
-1 votesanswersviews
Flafka(Http - > Flume-> Kafka - > Spark Streaming)
我有一个用于实时流的用例,我们将使用Kafka(0.9)用于消息缓冲和火花流(1.6)用于流处理(HDP 2.4) . 我们将在Http上收到~80-90K /秒的活动 . 您能否建议一个推荐的架构,以便将数据提取到Kafka主题中,这些主题将由Spark流消耗 . 我们正在考虑flafka架构 . Flume是否正在收听Http并向Kafka(Flafka)发送实时流媒体的好选择? 请分享其他可... -
0 votesanswersviews
Hive中的多个SLF4J绑定 - Hortonworks沙箱
在Hortonworks沙箱(HDP2.3 Pig和Hive Rev6)中运行Hive查询时,我收到此警告 . 在此之后没有任何事情发生 . Hive表也没有被创建 . 该怎么办? [root @ sandbox Lab7.1] #hive -f wh_visits.hive SLF4J:类路径包含多个SLF4J绑定 . SLF4J:在[jar:file:/usr/hdp/2.3.2.0-2... -
2 votesanswersviews
SparkAction用于纱线簇
使用Hortonworks HDP 2.3预览沙箱(oozie:4.2.0.2.3.0.0-2130,spark:1.3和Hadoop:2.7.1.2.3.0.0-2130),我试图使用"yarn-cluster"调用oozie spark动作主 . Oozie Spark Action中提供的示例用于在"local" master上运行spark操作 .... -
0 votesanswersviews
HDP Ambari安装失败
HDP Repo Content 我正在尝试在4节点群集上安装HDP Ambari . 关注Hortonworks数据平台 - 使用Ambari自动安装 - PDF版本: 这是我到目前为止: 4个虚拟机 - CentOS 6 在每台服务器上下载了Amabri Repo 下载了HDP堆栈仓库 yum安装ambari-server(在一台机器上) yum安装了ambari-ag... -
0 votesanswersviews
使用外部Oracle数据库设置IBM Open Platform
当我尝试使用Oracle数据库作为RDBMS安装单节点IBM Open Platform集群时,我有点困惑 . 首先,我理解IBM Big Insights的Hadoop部分不是相应Apache版本的修改版本(如HortonWorks那样),因此,当Ambari(来自IBM repo)提供我使用外部Oracle数据库时,我想它应该管用 . 我可能错了,我在糟糕的IBM安装指南中找不到任何oracl... -
1 votesanswersviews
Apache Atlas Rest Api
我试图通过rest api读取Atlas权利,我尝试了这个命令: curl -v -i -s -X GET user:pwd@something.confidential.here:21000/v1/entities/branch_intersect 虽然我可以在Apache UI中看到该表,但它说没有找到: <html> <head> <meta http-equ... -
1 votesanswersviews
Apache Atlas quickstart - kafka错误
环境:没有kerberos,没有游侠,没有hdfs . EC2与ssl . 使用正确的用户/传递运行 $ATLAS_HOME/bin/quick_start.py https://$componentPrivateDNSRecord:21443 后出现此错误 Creating sample types: Created type [DB] Created type [Table] Created... -
3 votesanswersviews
错误:java.io.IOException:表命名空间管理器尚未就绪,请稍后重试
我正在使用HDP2平台 . 在使用HBase时 . 我正在尝试在hbase中创建表 . 以下是我正在使用的命令 . hbase(main):002:0>创建'test','cf1','cf2' 但它给了我以下错误 ERROR: java.io.IOException: Table Namespace Manager not ready yet, try again later ... -
0 votesanswersviews
Kylin与hive表同步问题
我正在尝试将hive表列表中的表同步到kylin以构建多维数据集 . 但是,在此过程中,我看到元数据已同步并显示在Kylin中,但不会显示实际数据 . 当我尝试查看相关日志时,我发现这是: org.apache.kylin.source.hive.HiveMRInput $ HiveTableInputFormat.configureJob(HiveMRInput.java:115)org.ap... -
7 votesanswersviews
蜂巢中分区和分区的结构差异
我创建了两个表: 1)一个用于分区的分区2)只有 table 我知道hive中分区和分区的概念 . 但我有点困惑因为我读过 'partition creates directory and bucketing creates files' . 我同意第一部分,因为我可以在HDFS Hive Warehouse中看到,但我无法在HDFS中看到 ONLY bucketing表的任何文件,除了我加载... -
5 votesanswersviews
使用spark-submit YARN群集模式时缺少hive-site
使用HDP 2.5.3,我一直在尝试调试一些YARN容器类路径问题 . 由于HDP包括Spark 1.6和2.0.0,因此存在一些冲突的版本 我支持的用户能够成功地在YARN client 模式下使用带有Hive查询的Spark2,但是不能从 cluster 模式获得有关未找到的表的错误,或类似的东西,因为未 Build Metastore连接 . 我猜_1153251_之后设置 --drive... -
0 votesanswersviews
SAP HANA智能数据访问:无法计算虚拟表行(Hive)
我有一个HANA Express VM,我想与Hadoop集群进行交互 . 我有一个Hive表,我通过智能数据访问(SDA)连接到HANA . 虚拟表一切正常,我可以使用SAP HANA Studio查询Hive数据( select 语句),但是当我尝试计算表行时,我的HANA Studio中出现异常: SELECT count(*) FROM "SYSTEM"."o... -
2 votesanswersviews
YARN上的Spark:比通过spark-submit设置更少的执行程序内存
我在YARN集群(HDP 2.4)中使用Spark,具有以下设置: 1 Masternode 64 GB RAM(可用48 GB) 12个核心(可用8个核心) 5 Slavenodes 64 GB RAM(可用48 GB)每个 12个核心(可用8个核心) YARN设置 所有容器(一个主机)的内存:48 GB 最小容器大小=最大容器大小= 6 GB集群中的 v... -
0 votesanswersviews
关于在集群上运行spark作业的说明(AWS)
我有一个在AWS EC2机器上运行的HortonWorks集群,我希望使用火花流运行一个火花工作,这将吞下关于权力游戏的推文 . 在尝试在我的集群上运行它之前,我确实在本地运行它 . 代码正常,这里是: import org.apache.spark.streaming.{StreamingContext, Seconds} import org.apache.spark.streaming.tw... -
0 votesanswersviews
没有Kerberos或AD / LDAP的Hbase身份验证
我实际上是在 HDP 集群(而不是Kerberized)中尝试进行一些自定义安全设置 . 用例是hbase,kafka必须实现授权,但不使用kerberos . 只有人为错误才能避免,因此密码没有理由 . 全部是Java . 当然,没有身份验证就没有授权(这是Kerberos完成其工作的地方) . 我能够在Kafka代理上实现授权(这个,甚至在kerberized集群上,代理可以配置为从 GSSA... -
0 votesanswersviews
WebHDFS在Hortonworks中出错
在设置历史服务器和配置单元服务器时,webHDFS在REST API中给出以下错误 . curl -sS -L -w '%{http_code}' -X PUT -T /usr/hdp/2.3.4.0-3485/hadoop/mapreduce.tar.gz 'http://ambari1.devcloud.247-inc.net:50070/webhdfs/v1/hdp/apps/2.3.4.0... -
2 votesanswersviews
在oozie Java Action中传递HBase凭据
我需要安排一个与安全的hbase交互的oozie Java操作,所以我需要为Java操作提供hbase凭据 . 我使用的是安全的hortonworks 2.2环境,我的工作流XML如下所示 <workflow-app xmlns="uri:oozie:workflow:0.4" name="solr-wf"> <credential... -
0 votesanswersviews
Hortonworks Oozie Spark Action
有没有人设法通过HDP中的Oozie成功运行Spark动作? 我使用Oozie 4.2.0运行HDP 2.3.2 . 火花动作设置为以纱线群集模式运行 . 火花作业是虚拟作业,没有输入文件 . 我首先点击错误here并设法通过从hdfs oozie spark lib文件夹中删除以下内容来绕过它(在我的情况下: /user/oozie/share/lib/lib_20151116201309/sp... -
0 votesanswersviews
Hortonworks Oozie Spark Action - NullPointerException
我正在使用 oozie 4.2.0 在 HDP 2.5.3 上运行 . spark动作设置为在yarn-client模式下运行 . Spark Job用于从hive表获取数据,处理它并将其存储在 HDFS 中 . 但是当我尝试从 Spark Action 提交Spark应用程序时,我得到了 NullPointerException . workflow.xml <workflow-ap... -
0 votesanswersviews
hbase map-reduce with oozie可获得最佳性能
我想从oozie调度程序运行Hbase TableMapReduce作业 . 我有一个驱动程序,映射器和没有reducer类 . 从具有最佳性能的hadoop生态系统的oozie开始这项工作的最佳方式是什么?目前我正在oozie工作流中为驱动程序类使用Java操作 . <action name="custom-java-action-mr"> <jav... -
0 votesanswersviews
非法参数例外:无法访问BASE URL:httpHDP安装
我'm trying to install HDP2.3 with ambari. I had already installed ambari client and server. In three nodes. When I'm选择堆栈 - 我无法访问BASE URL错误 . 请看下面的错误图片 . 同样在服务器日志中,我可以看到错误为: Resource_management.core.... -
3 votesanswersviews
Spark 1.4缺少Kafka库
我正在尝试运行一个在spark 1.3.1中完美运行的Python spark脚本 . 我已经下载了火花1.4并试图运行脚本,但它一直在说 在类路径中找不到Spark Streaming的Kafka库 . 请尝试以下方法之一 . 在spark-submit命令中包含Kafka库及其依赖项,如$ bin / spark-submit --packages org.apache.spark:spar... -
1 votesanswersviews
Spark num-executors
我在AWS上设置了10节点HDP平台 . 以下是我的配置2服务器 - 名称节点和备用名称节点7数据节点和每个节点有40个vCPU和160 GB内存 . 我试图在提交spark应用程序时计算执行程序的数量,在浏览不同的博客后,我对这个参数的实际含义感到困惑 . 看下面的博客,似乎num executors是所有节点上执行者的总数http://blog.cloudera.com/blog/2015/0... -
1 votesanswersviews
Spark on YARN:yarn-client vs yarn-cluster:Spark Driver内存差异
我正在做一些基准测试,我也看一下Spark中的内存问题 . 在运行我的Spark应用程序时,我看到Spark驱动程序进程的内存不同,具体取决于我运行应用程序的部署模式 . 下表显示了我的Spark UI在应用程序的执行程序 - >驱动程序部分中显示的不同值 . 我按照spark-submit参数设置驱动程序内存--driver-memory . --driver-memory paramet...