Java 学习之路

2 votes

answers

views

如何安装和配置Apache Atlas的最小系统？

我是学生，这些问题让我感到沮丧数周，请帮助我 . 根据某个社区的开发人员的说法，运行Atlas需要Hive，即Atlas的最小系统必须由Atlas，Hive，Hadoop和MySQL等RDBMS组成 . 我也做了很多研究，并阅读了https://github.com/shivajid/atlas上的教程 . 但本教程基于HDP，我的老师要求我自己配置最小系统 . 我模仿了上面提到的shivajid...

hadoop hive metadata hortonworks-data-platform atlas
0 votes

answers

views

在horton工程沙盒中运行map reduce hdfs进入安全模式后

我得到的错误如下，在写入输出文件时是否由于复制不足或过度而发生此错误？找不到工作申请_1417871611451_0016 . 这份工作可能还没有运行 . 找不到作业job_1417871611451_0016：{“RemoteException”：{“exception”：“NotFoundException”，“message”：“java.lang.Exception：job，job_1...

java hadoop mapreduce hortonworks-data-platform
0 votes

answers

views

HBase（Hortonworks）访问被拒绝例外

我们在Hortonworks环境中使用HBase作为我们的存储选择 . 我们有一个节点正在运行，如果一切正常，我们计划升级到多个节点 . 目前，我们使用Knox SSO登录服务 . 要访问HBase中的数据，我们使用WebHBase api . 通过Knox SSO登录工作正常 . 我们用来执行此操作的用户（“testuser”）具有在Ranger中配置的Hbase的完全访问权限 . 但是，当我们...

hadoop hbase hortonworks-data-platform knox-gateway ranger
1 votes

answers

views

pig - 从远程hbase服务器读取/写入数据

我想从pig脚本读取/写入hbase远程服务器的数据 . 我们正在使用Hortonworks HDP 2.5 以下是场景 . 我们有两个集群，一个用于Hive，另一个用于Hbase . 我们可以访问作为Hive集群一部分的边缘节点 . 我们的代码（MapReduce作业和Pig脚本）将在Hive集群上执行 . 作为需求的一部分，我们还必须从Hbase表读取/写入数据 . 我们在网上找到了一个解决方...

hadoop hbase apache-pig hortonworks-data-platform
0 votes

answers

views

pyspark-shell中df = sqlContext.read.json（rdd）中的执行错误

数据框创建中的Pyspark问题 . HDP集群（hdp 2.4，hadoop 2.7和spark 1.6.0）我面临的问题是在创建数据帧时使用PySpark . 对于Scala Shell： val q=sc.parallelize(Seq("""{"From": " Ragaraju","Cc":&qu...

apache-spark pyspark hortonworks-data-platform
1 votes

answers

views

通过在HDP群集外部运行的Java应用程序与Kerberized HBase的连接问题

我们有一个在Liberty IBM WebSphere服务器上运行的Java应用程序，并尝试连接到HDP集群上的HBase以保留一些数据 . 现在我们面临着在HDP集群上连接到HBase（kerberized）的问题 . 我们已经能够通过Spark，Storm或在集群中运行的应用程序连接到HBase，但由于我们正处于集群外部而面临问题 . 我们尝试了多种方法并遵循这些链接https://commu...

hbase kerberos hortonworks-data-platform
-1 votes

answers

views

Flafka（Http - > Flume-> Kafka - > Spark Streaming）

我有一个用于实时流的用例，我们将使用Kafka（0.9）用于消息缓冲和火花流（1.6）用于流处理（HDP 2.4） . 我们将在Http上收到~80-90K /秒的活动 . 您能否建议一个推荐的架构，以便将数据提取到Kafka主题中，这些主题将由Spark流消耗 . 我们正在考虑flafka架构 . Flume是否正在收听Http并向Kafka（Flafka）发送实时流媒体的好选择？请分享其他可...

apache-kafka spark-streaming flume hortonworks-data-platform
0 votes

answers

views

Hive中的多个SLF4J绑定 - Hortonworks沙箱

在Hortonworks沙箱（HDP2.3 Pig和Hive Rev6）中运行Hive查询时，我收到此警告 . 在此之后没有任何事情发生 . Hive表也没有被创建 . 该怎么办？ [root @ sandbox Lab7.1] #hive -f wh_visits.hive SLF4J：类路径包含多个SLF4J绑定 . SLF4J：在[jar：file：/usr/hdp/2.3.2.0-2...

hadoop hive hortonworks-data-platform
2 votes

answers

views

SparkAction用于纱线簇

使用Hortonworks HDP 2.3预览沙箱（oozie：4.2.0.2.3.0.0-2130，spark：1.3和Hadoop：2.7.1.2.3.0.0-2130），我试图使用"yarn-cluster"调用oozie spark动作主 . Oozie Spark Action中提供的示例用于在"local" master上运行spark操作 ....

apache-spark yarn oozie hortonworks-data-platform
0 votes

answers

views

HDP Ambari安装失败

HDP Repo Content 我正在尝试在4节点群集上安装HDP Ambari . 关注Hortonworks数据平台 - 使用Ambari自动安装 - PDF版本：这是我到目前为止： 4个虚拟机 - CentOS 6 在每台服务器上下载了Amabri Repo 下载了HDP堆栈仓库 yum安装ambari-server（在一台机器上） yum安装了ambari-ag...

hortonworks-data-platform ambari
0 votes

answers

views

使用外部Oracle数据库设置IBM Open Platform

当我尝试使用Oracle数据库作为RDBMS安装单节点IBM Open Platform集群时，我有点困惑 . 首先，我理解IBM Big Insights的Hadoop部分不是相应Apache版本的修改版本（如HortonWorks那样），因此，当Ambari（来自IBM repo）提供我使用外部Oracle数据库时，我想它应该管用 . 我可能错了，我在糟糕的IBM安装指南中找不到任何oracl...

oracle hadoop hortonworks-data-platform ambari biginsights
1 votes

answers

views

Apache Atlas Rest Api

我试图通过rest api读取Atlas权利，我尝试了这个命令： curl -v -i -s -X GET user:pwd@something.confidential.here:21000/v1/entities/branch_intersect 虽然我可以在Apache UI中看到该表，但它说没有找到： <html> <head> <meta http-equ...

rest hadoop hortonworks-data-platform apache-atlas
1 votes

answers

views

Apache Atlas quickstart - kafka错误

环境：没有kerberos，没有游侠，没有hdfs . EC2与ssl . 使用正确的用户/传递运行 $ATLAS_HOME/bin/quick_start.py https://$componentPrivateDNSRecord:21443 后出现此错误 Creating sample types: Created type [DB] Created type [Table] Created...

hadoop apache-kafka hbase hortonworks-data-platform atlas
3 votes

answers

views

错误：java.io.IOException：表命名空间管理器尚未就绪，请稍后重试

我正在使用HDP2平台 . 在使用HBase时 . 我正在尝试在hbase中创建表 . 以下是我正在使用的命令 . hbase（main）：002：0>创建'test'，'cf1'，'cf2' 但它给了我以下错误 ERROR: java.io.IOException: Table Namespace Manager not ready yet, try again later ...

hadoop hbase apache-zookeeper hadoop2 hortonworks-data-platform
0 votes

answers

views

Kylin与hive表同步问题

我正在尝试将hive表列表中的表同步到kylin以构建多维数据集 . 但是，在此过程中，我看到元数据已同步并显示在Kylin中，但不会显示实际数据 . 当我尝试查看相关日志时，我发现这是： org.apache.kylin.source.hive.HiveMRInput $ HiveTableInputFormat.configureJob（HiveMRInput.java:115）org.ap...

hadoop hive hbase hortonworks-data-platform kylin
7 votes

answers

views

蜂巢中分区和分区的结构差异

我创建了两个表： 1）一个用于分区的分区2）只有 table 我知道hive中分区和分区的概念 . 但我有点困惑因为我读过 'partition creates directory and bucketing creates files' . 我同意第一部分，因为我可以在HDFS Hive Warehouse中看到，但我无法在HDFS中看到 ONLY bucketing表的任何文件，除了我加载...

hadoop hive hdfs cloudera hortonworks-data-platform
5 votes

answers

views

使用spark-submit YARN群集模式时缺少hive-site

使用HDP 2.5.3，我一直在尝试调试一些YARN容器类路径问题 . 由于HDP包括Spark 1.6和2.0.0，因此存在一些冲突的版本我支持的用户能够成功地在YARN client 模式下使用带有Hive查询的Spark2，但是不能从 cluster 模式获得有关未找到的表的错误，或类似的东西，因为未 Build Metastore连接 . 我猜_1153251_之后设置 --drive...

apache-spark hive hortonworks-data-platform spark-hive
0 votes

answers

views

SAP HANA智能数据访问：无法计算虚拟表行（Hive）

我有一个HANA Express VM，我想与Hadoop集群进行交互 . 我有一个Hive表，我通过智能数据访问（SDA）连接到HANA . 虚拟表一切正常，我可以使用SAP HANA Studio查询Hive数据（ select 语句），但是当我尝试计算表行时，我的HANA Studio中出现异常： SELECT count(*) FROM "SYSTEM"."o...

hive odbc hortonworks-data-platform hana
2 votes

answers

views

YARN上的Spark：比通过spark-submit设置更少的执行程序内存

我在YARN集群（HDP 2.4）中使用Spark，具有以下设置： 1 Masternode 64 GB RAM（可用48 GB） 12个核心（可用8个核心） 5 Slavenodes 64 GB RAM（可用48 GB）每个 12个核心（可用8个核心） YARN设置所有容器（一个主机）的内存：48 GB 最小容器大小=最大容器大小= 6 GB集群中的 v...

apache-spark containers yarn hortonworks-data-platform executor
0 votes

answers

views

关于在集群上运行spark作业的说明（AWS）

我有一个在AWS EC2机器上运行的HortonWorks集群，我希望使用火花流运行一个火花工作，这将吞下关于权力游戏的推文 . 在尝试在我的集群上运行它之前，我确实在本地运行它 . 代码正常，这里是： import org.apache.spark.streaming.{StreamingContext, Seconds} import org.apache.spark.streaming.tw...

scala amazon-web-services apache-spark amazon-ec2 hortonworks-data-platform
0 votes

answers

views

没有Kerberos或AD / LDAP的Hbase身份验证

我实际上是在 HDP 集群（而不是Kerberized）中尝试进行一些自定义安全设置 . 用例是hbase，kafka必须实现授权，但不使用kerberos . 只有人为错误才能避免，因此密码没有理由 . 全部是Java . 当然，没有身份验证就没有授权（这是Kerberos完成其工作的地方） . 我能够在Kafka代理上实现授权（这个，甚至在kerberized集群上，代理可以配置为从 GSSA...

authentication authorization hbase kerberos hortonworks-data-platform
0 votes

answers

views

WebHDFS在Hortonworks中出错

在设置历史服务器和配置单元服务器时，webHDFS在REST API中给出以下错误 . curl -sS -L -w '%{http_code}' -X PUT -T /usr/hdp/2.3.4.0-3485/hadoop/mapreduce.tar.gz 'http://ambari1.devcloud.247-inc.net:50070/webhdfs/v1/hdp/apps/2.3.4.0...

rest hadoop hdfs hortonworks-data-platform bigdata
2 votes

answers

views

在oozie Java Action中传递HBase凭据

我需要安排一个与安全的hbase交互的oozie Java操作，所以我需要为Java操作提供hbase凭据 . 我使用的是安全的hortonworks 2.2环境，我的工作流XML如下所示 <workflow-app xmlns="uri:oozie:workflow:0.4" name="solr-wf"> <credential...

hadoop hbase kerberos oozie hortonworks-data-platform
0 votes

answers

views

Hortonworks Oozie Spark Action

有没有人设法通过HDP中的Oozie成功运行Spark动作？我使用Oozie 4.2.0运行HDP 2.3.2 . 火花动作设置为以纱线群集模式运行 . 火花作业是虚拟作业，没有输入文件 . 我首先点击错误here并设法通过从hdfs oozie spark lib文件夹中删除以下内容来绕过它（在我的情况下： /user/oozie/share/lib/lib_20151116201309/sp...

apache-spark oozie hortonworks-data-platform
0 votes

answers

views

Hortonworks Oozie Spark Action - NullPointerException

我正在使用 oozie 4.2.0 在 HDP 2.5.3 上运行 . spark动作设置为在yarn-client模式下运行 . Spark Job用于从hive表获取数据，处理它并将其存储在 HDFS 中 . 但是当我尝试从 Spark Action 提交Spark应用程序时，我得到了 NullPointerException . workflow.xml <workflow-ap...

hadoop apache-spark oozie hortonworks-data-platform oozie-workflow
0 votes

answers

views

hbase map-reduce with oozie可获得最佳性能

我想从oozie调度程序运行Hbase TableMapReduce作业 . 我有一个驱动程序，映射器和没有reducer类 . 从具有最佳性能的hadoop生态系统的oozie开始这项工作的最佳方式是什么？目前我正在oozie工作流中为驱动程序类使用Java操作 . <action name="custom-java-action-mr"> <jav...

hadoop mapreduce hbase oozie hortonworks-data-platform
0 votes

answers

views

非法参数例外：无法访问BASE URL：httpHDP安装

我'm trying to install HDP2.3 with ambari. I had already installed ambari client and server. In three nodes. When I'm选择堆栈 - 我无法访问BASE URL错误 . 请看下面的错误图片 . 同样在服务器日志中，我可以看到错误为： Resource_management.core....

hadoop installation hortonworks-data-platform ambari
3 votes

answers

views

Spark 1.4缺少Kafka库

我正在尝试运行一个在spark 1.3.1中完美运行的Python spark脚本 . 我已经下载了火花1.4并试图运行脚本，但它一直在说在类路径中找不到Spark Streaming的Kafka库 . 请尝试以下方法之一 . 在spark-submit命令中包含Kafka库及其依赖项，如$ bin / spark-submit --packages org.apache.spark：spar...

hadoop apache-spark apache-kafka spark-streaming hortonworks-data-platform
1 votes

answers

views

Spark num-executors

我在AWS上设置了10节点HDP平台 . 以下是我的配置2服务器 - 名称节点和备用名称节点7数据节点和每个节点有40个vCPU和160 GB内存 . 我试图在提交spark应用程序时计算执行程序的数量，在浏览不同的博客后，我对这个参数的实际含义感到困惑 . 看下面的博客，似乎num executors是所有节点上执行者的总数http://blog.cloudera.com/blog/2015/0...

apache-spark yarn hortonworks-data-platform
1 votes

answers

views

Spark on YARN：yarn-client vs yarn-cluster：Spark Driver内存差异

我正在做一些基准测试，我也看一下Spark中的内存问题 . 在运行我的Spark应用程序时，我看到Spark驱动程序进程的内存不同，具体取决于我运行应用程序的部署模式 . 下表显示了我的Spark UI在应用程序的执行程序 - >驱动程序部分中显示的不同值 . 我按照spark-submit参数设置驱动程序内存--driver-memory . --driver-memory paramet...

apache-spark memory-management yarn heap-memory hortonworks-data-platform

热门问题