首页 文章
  • 0 votes
     answers
     views

    通过Docker在CDH中使用WebHDFS / HttpFS

    我正在通过Docker Toolbox使用cloudera quickstart(win10 home的docker) . CDH版本是5.7 我正在尝试使用Webhdfs / HttpFS连接到hdfs,我不确定该端口是50070还是14000. here是CDH 5.7中的端口列表 1)我实际上不确定我需要使用的用户名是什么,我试过root,cloudera或者它的容器名称? try to ...
  • 0 votes
     answers
     views

    只将有效负载写入hdfs

    在我的单一课程中,我必须 Build 一个小“大数据”项目 . 为此,我从API收集数据并将其写入文件,每个新数据集都附加到该文件 . 一个kafka制作人收集了这些数据,我已经设置了水槽将其写入HDFS . 它工作正常,但我得到了我不想要的信息 {"schema":{"type":"string","optional&quot...
  • 0 votes
     answers
     views

    hadoop with yarn resourcemanager和nodemanager命令未找到

    在此先感谢您的帮助 ! 当我启动%HADOOP_HOME%\ sbin目录\启动dfs.cmd,它的工作原理,然后当我做%HADOOP_HOME%\ sbin目录\启动yarn.cmd这是行不通的,它打开两个窗口说:“命令的ResourceManager找不到”和“命令”nodemanager“找不到 . 我一直在努力解决这个问题,但没有找到任何解决办法,并尝试了很多东西 . 这是我的yarn-s...
  • 0 votes
     answers
     views

    Java hadoop api YarnClient没有“init()/ start()”函数?

    我试过像这样的maven repo: <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-yarn-common</artifactId> <version>2.7.2</version&...
  • 0 votes
     answers
     views

    在GCP Dataproc上为什么Spark Dataframe .format(“parquet”) . save(“path”)方法调用失败?

    我正在运行Spark Job which works locally ,我希望能够保存为可配置的格式 df .write .mode("overwrite") .partitionBy(KEY_YEAR, KEY_MONTH, KEY_DAY, KEY_TYPE) .format(conf.syncType) .save(s"<my syn...
  • 0 votes
     answers
     views

    sqoop deamon日志的正则表达式

    我正在尝试为Sqoop日志创建一个正则表达式 . 以下是日志: > Warning: /usr/lib/sqoop/../accumulo does not exist! Accumulo imports will fail. Please set $ACCUMULO_HOME to the root of your Accumulo installation. SLF4J: Class p...
  • 0 votes
     answers
     views

    如何通过Galago或Hadoop获取ClueWeb语料库?

    “如何获取ClueWeb语料库”让我很困惑,有人可以帮助我 . 我有一个indice文件夹,其中包含如下文件: [20160624.chk, data.lexicon.fsomapfile, data.meta.zdata, md5sums, data.direct.bf, data....
  • 0 votes
     answers
     views

    如何将Spark Client submitApplication转换为Yarn Rest API?

    目前,我有一个使用 spark.deploy.yarn.Client 向Yarn提交申请的工作代码实现 . 聚合此客户端需要的所有参数很复杂,但应用程序的提交很简单: ClientArguments cArgs = new ClientArguments(args.toArray(new String[0])); client = new Client(cArgs, sparkConf); app...
  • 0 votes
     answers
     views

    无法使用gethue / hue docker镜像配置HDFS地址

    我试图从gethue / hue获得Hue docker图像,但它似乎忽略了我给他的配置,并且总是在localhost上寻找HDFS而不是我要求他寻找的docker容器 . 这是一些背景: 我正在使用以下docker compose来启动HDFS集群: hdfs-namenode: image: bde2020/hadoop-namenode:1.1.0-hadoop2.7.1-jav...
  • 0 votes
     answers
     views

    尝试从SQuirrel客户端连接到Phoenix时出错

    我无法从SQuirrel Client连接到Phoenix . 使用的版本: Hortonworks HDP 2.5.3.0,phoenix-4.7.0.2.5.3.0-37,Hbase 1.1.2,SQuirrel Client版本3.8.1 我在AWS EC2实例上使用Ambari安装(ambari - 2.5.1)创建了3个节点集群 . 群集是非kerberised(不安全) . 我可以...
  • 5 votes
     answers
     views

    从oozie到Hue运行shell脚本

    我在Hue使用oozie编辑器调用bash shell脚本 . 我在工作流中使用了shell动作,并在shell命令中尝试了以下不同的选项: 使用'choose a file'上传shell脚本 提供存在shell脚本的本地目录路径 给出了存在shell脚本的HDFS路径 但所有这些选项都给出了以下错误: 不能运行程序 “sec_test_oozie.sh”(在目录 “/数据/ ...
  • 0 votes
     answers
     views

    Hortonworks群集数据备份和还原的解决方案

    来到我的场景,我在Hortonworks 2.2上运行的当前节点集群12 . 现在我们需要更改硬件级别和架构级别的一些更改,并且我们还计划将Hortonworks版本升级到最新版本 . 因此,我们决定在一些 Cloud 计算机或磁盘中备份所有群集数据,并安装新版本的hortonworks并恢复所有备份数据 . 在备份和恢复数据的过程中,我们了解了 ApacheFalcon 和 DistCp . ...
  • 0 votes
     answers
     views

    org.apache.hadoop.hdfs.server.blockmanagement.BlockPlacementPolicy:选择远程机架失败(location =〜/ default / rack

    当我尝试在hdfs中编写文件时,我面临以下错误 . 它是4节点集群 . 网络拓扑说没有节点可供选择 . 但是所有数据节点都在运行,块报告也发生了 . 我在某些配置中缺少 . 2018-12-09 10:32:00,048 DEBUG org.apache.hadoop.net.NetworkTopology: No node to choose. 2018-12-09 10:32:00,049 D...
  • 1 votes
     answers
     views

    Map-Reduce <Key,Value>对Key是一个时间间隔

    我有一个文本文件,每行有以下内容: 2018-11-27T08:06:11, 4.000000, 6.000000 2018-11-27T08:06:13, 9.000000, -1.000000 2018-11-27T08:06:15, 2.000000, -3.000000 2018-11-27T08:06:17, 1.000000, 9.000000 2018-11-27T08:06...
  • 0 votes
     answers
     views

    与阿帕奇长颈鹿的大图的4个配置文件演算

    对于我的计算机科学硕士论文,我使用giraph-1.3.0-snapshot(使用-Phadoop_yarn配置文件编译)和hadoop-2.8.4成功实现了4-profile calculus(https://arxiv.org/abs/1510.02215) . 我使用t2.2xlarge(32GB,8CPU)实例在amazon ec2上配置了一个由1个namenode和5个datanode组...
  • 0 votes
     answers
     views

    Hadoop集群kerberized时无法访问HDFS

    我成功地对测试Hortonworks集群进行了测试 . Ambari为服务创建了关键标记,它们都已启动 . 名称节点有HA . 备用namenode启动速度很快,Active namenode需要更长时间 . Namenode UI显示一切正确 . 可以使用kerberos登录 . Namenodes是nn1.zim.com和 nn2.zim.com 这个问题可能有什么问题?以hdfs身份登...
  • 0 votes
     answers
     views

    sqoop deamon日志的正则表达式

    我正在尝试为Sqoop日志创建一个正则表达式 . 以下是日志: &gt; Warning: /usr/lib/sqoop/../accumulo does not exist! Accumulo imports will fail. Please set $ACCUMULO_HOME to the root of your Accumulo installation. SLF4J: Class p...
  • 0 votes
     answers
     views

    如何将数据从外部源(主要是Restful)引入HDFS? [关闭]

    这是更多与设计相关的问题 . 我是一名java开发人员,也是hadoop大数据世界的新成员;在我的Hortonworks HDP Sandbox中学习hadoop(它是由Hortonworks作为VM提供的单节点伪群集) . 我设计了一个Java restful api,它与我创建的虚拟数据库交互 . api / client将向uri发送一系列“GET”请求,并将结果体存储为本地hortonw...
  • 2 votes
     answers
     views

    如何安装和配置Apache Atlas的最小系统?

    我是学生,这些问题让我感到沮丧数周,请帮助我 . 根据某个社区的开发人员的说法,运行Atlas需要Hive,即Atlas的最小系统必须由Atlas,Hive,Hadoop和MySQL等RDBMS组成 . 我也做了很多研究,并阅读了https://github.com/shivajid/atlas上的教程 . 但本教程基于HDP,我的老师要求我自己配置最小系统 . 我模仿了上面提到的shivajid...
  • 21 votes
     answers
     views

    Spark无法为您的平台加载native-hadoop库

    我已经尝试使用stackoverflow上找到的答案修复我的问题,但我无法解决任何问题 . 使用bin文件夹中的命令 ./spark-shell 启动spark我收到此消息 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where...
  • 1 votes
     answers
     views

    BigData分析选择技术堆栈

    我想编写一个能够生成报告并通过监视来自大型 生产环境 系统的数据进行交互式数据分析(类似OLAP)的应用程序 . (我知道,未来会有一些有问题的权衡决定,但让我们暂时搁置它们 . )我确定了基本技术堆栈的以下可能性: Hadoop:用于分布式文件系统和MapReduce框架 数据库:HBase或Cassandra启用随机读取 分析:Hive或Pig进行高级分析 根据我的研究,我倾...
  • -1 votes
     answers
     views

    如何为“大数据”分析项目设置架构?

    我和我的一个朋友在我们的高年级,很快就会开始一个高级项目 . 我们有想法为它做一个数据分析和数据可视化项目 . 我们的项目涉及读取每2分钟更新一次的CSV文件,解析该数据,然后将其存储在数据库中 . 存储该数据后,我们希望对其进行一些分析并提供一个API,通过该API我们可以访问该数据以便以某种方式进行可视化 . 我们的最终目标是构建一个Android应用程序,以用户友好的格式显示CSV中的一些原...
  • 3 votes
     answers
     views

    并行化GZip文件处理Spark

    我有一个巨大的GZip文件列表,需要转换为Parquet . 由于GZip的压缩特性,这不能为一个文件并行化 . 但是,由于我有很多,是否有一种相对简单的方法让每个节点都能完成部分文件?这些文件在HDFS上 . 我假设我不能使用RDD基础结构来编写Parquet文件,因为这一切都是在驱动程序上完成的,而不是在节点本身上完成的 . 我可以并行化文件名列表,编写一个处理Parquets本地的函数并将它...
  • 1 votes
     answers
     views

    在pyspark中使用拉链

    我在一个目录中有n个拉链,我想提取其中的每一个,然后从一个或两个位于拉链内的文件中提取一些数据并将其添加到图形DB中 . 我已经为这整个事情制作了一个顺序的python脚本,但我仍然坚持将它转换成火花 . 我的所有拉链都在HDFS目录中 . 并且,他的图表DB是Neo4j . 我还没有学习如何将spark与neo4j联系起来,但我仍处于更开始的阶段 . 我在想我的代码应该是这样的 . # Name...
  • 0 votes
     answers
     views

    使用Apache Ignite Hadoop加速器提交Hadoop作业

    免责声明:我是Hadoop和Apache Ignite的新手 . 抱歉冗长的背景信息 . Setup :我已经安装并配置了Apache Ignite Hadoop Accelerator . Start-All.sh提供以下服务 . 我可以提交Hadoop工作 . 他们完成了,我可以看到预期的结果 . 一开始都使用传统的核心站点,hdfs-site,mapred-site和yarn-site配置...
  • 0 votes
     answers
     views

    为什么Hadoop中的自定义数据类型发生溢出故障

    在hadoop中,我正在编写我的自定义数据类型,如下所示 import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.io.WritableComparable; public class Movie implements WritableCo...
  • 0 votes
     answers
     views

    使用SchemRegistry的KafkaConnect HDFS连接器

    我参考以下链接了解HDFS Connect for Kafka https://docs.confluent.io/2.0.0/connect/connect-hdfs/docs/index.html我可以通过hive集成将数据从kafka导出到HDFS .现在我试图借助Java程序将avro记录写入kafka public static void main(String[] args) thro...
  • 0 votes
     answers
     views

    编写Flume配置,将不断增长的文件上传到HDFS

    我是Flume的新手,并且在配置方面遇到了一些问题 . 我在Oracle VirtualBox上使用Hortonworks Sandbox HDP 2.6.5(如果这很重要) . 我的VM中有一个文本文件 input_data.txt : input_data.txt的内容如下所示: 我使用以下命令创建并逐渐增加输入: cat input_data.txt | while read line ; ...
  • 1 votes
     answers
     views

    Flume HDFS-200附加

    页面https://cwiki.apache.org/confluence/display/FLUME/Getting+Started表示HDFS接收器支持附加但我无法找到有关如何启用它的任何信息,每个示例都在滚动文件上 . 所以,如果可能的话,我会很感激有关如何将水槽附加到现有文件的任何信息 Update 可以将所有滚动属性设置为0,这将使得水槽写入单个文件,但它不会关闭文件,并且新记录对其他进...
  • 2 votes
     answers
     views

    将数据下沉到hdfs时,配置flume不生成.tmp文件

    我正在使用flume将数据从服务器日志传输到hdfs . 但是当数据流入hdfs时,它首先创建.tmp文件 . 配置中是否有一种方法可以隐藏.tmp文件,或者可以通过附加a来更改名称 . 在前 . 我的收集代理文件看起来像 - ## TARGET AGENT ## ## configuration file location: /etc/flume/conf ## START Agent: fl...

热门问题