首页 文章
  • 8 votes
     answers
     views

    Kafka - > Flink DataStream - > MongoDB

    我想设置Flink,以便将数据流从Apache Kafka转换并重定向到MongoDB . 出于测试目的,我 Build 在flink-streaming-connectors.kafka示例(https://github.com/apache/flink)之上 . Faf正在为Kafka流提供正确的红色,我可以映射它们等等,但是当我想将每个收到的和转换后的消息保存到MongoDB时会出现问题 ....
  • 3 votes
     answers
     views

    Spark on yarn jar上传问题

    我正在尝试使用spark over yarn运行一个简单的Map / Reduce java程序(CentOS上的Cloudera Hadoop 5.2) . 我试过这2种不同的方式 . 第一种方式如下: YARN_CONF_DIR=/usr/lib/hadoop-yarn/etc/hadoop/; /var/tmp/spark/spark-1.4.0-bin-hadoop2.4/bin/spa...
  • 6 votes
     answers
     views

    从Spark访问Hdfs会产生TokenCache错误无法获取Master Kerberos主体以用作续订程序

    我正在尝试运行测试Spark脚本,以便将Spark连接到hadoop . 该脚本如下 from pyspark import SparkContext sc = SparkContext("local", "Simple App") file = sc.textFile("hdfs://hadoop_node.place:9000/errs.tx...
  • 2 votes
     answers
     views

    使用Hadoop从Spark连接到ElasticSearch无法正常工作

    我在连接到我的Java代码本地运行的ElasticSearch节点时遇到问题,该代码作为提交给Spark的作业(在本地运行)运行 . 但是,当我不使用Spark时,连接没问题 . 同时运行Python作业并将其提交给spark工作正常 . 我知道Java需要通过端口9300而不是9200(HTTP端口)连接 . 然而,我总是得到同样的例外,在阅读或写作上没有区别: 16/08/04 16:51:5...
  • 1 votes
     answers
     views

    运行map时出错会减少R中的作业

    我刚开始集成RHadoop . 它是与Hadoop集成的R-studio服务器,但是在运行map-reduce作业时遇到错误 . 当我运行下面的代码行 . library(rmr2) a <- to.dfs(seq(from=1, to=500, by=3), output="/user/hduser/num") *b <- mapreduce(input=a, m...
  • 0 votes
     answers
     views

    WebHDFS在Hortonworks中出错

    在设置历史服务器和配置单元服务器时,webHDFS在REST API中给出以下错误 . curl -sS -L -w '%{http_code}' -X PUT -T /usr/hdp/2.3.4.0-3485/hadoop/mapreduce.tar.gz 'http://ambari1.devcloud.247-inc.net:50070/webhdfs/v1/hdp/apps/2.3.4.0...
  • 0 votes
     answers
     views

    完成33%后猪 Map 减少工作失败

    我正在apache pig中运行group by子句,它正在创建map reduce工作,它在1/3完成后失败 . 无论如何我可以解决这个问题,因为日志没有给出任何失败的原因 . 我正在寻找以下任何一个 .1.找到确切错误的一些方法(即内存错误,数据类型错误等)2.任何使日志更加冗长以在屏幕上写入更多错误消息的方法 . 2016-04-03 22:59:40,252 [main] INFO or...
  • 0 votes
     answers
     views

    在hadoop程序中压缩映射输出结果异常

    在Hadoop程序中,我试图压缩 Map 结果,我写了下面的代码: conf.setBoolean("mapred.compress.map.output",true); conf.setClass("mapred.map.output.compression.codec",GzipCodec.class,CompressionCodec.class); ...
  • 0 votes
     answers
     views

    Google Cloud 端平台上的预定mapreduce工作

    我正在开发一个基本上 stores user event logs in a database and shows insights about user action 的node.js应用程序 . 要实现此事件,必须使用 Mapreduce 作业进行分析,该作业将运行 once a day automatically (每晚) . 我完全迷失了,因为有几种技术,如果不使用命令行就找不到办法,也没...
  • 0 votes
     answers
     views

    sqoop命令中映射器数量的增加会导致java堆空间错误

    我使用sqoop 1.4.5-cdh5.2.1和oracle . 我从oracle导入一小组115k的记录 . Sqoop命令在将-num-mappers设置为5时工作正常 . 但是当我将它设置为5以上时,我得到了JAVA HEAP SPACE的错误 . 任何人都可以告诉它,为什么会发生这种情况 . LOG 异常螺纹"main" java.lang.OutOfMemoryEr...
  • 4 votes
     answers
     views

    Spark:Executor Lost Failure(添加groupBy作业后)

    我正在尝试在Yarn客户端上运行Spark工作 . 我有两个节点,每个节点都有以下配置 . 我得到“ExecutorLostFailure(遗失执行人1)” . 我已经尝试了大部分Spark调优配置 . 我已经减少了一个执行者丢失,因为最初我有6个 Actuator 失败 . 这些是我的配置(我的spark-submit): HADOOP_USER_NAME = hdfs spark-subm...
  • 0 votes
     answers
     views

    hadoop / yarn / spark Actuator 内存增加

    当我用 --master yarn-cluster --num-executors 7 --driver-memory 10g --executor-memory 16g --executor-cores 5 执行spark-submit命令时,我得到以下错误,我不知道在哪里更改堆大小,我怀疑Yarn配置文件在哪里,请指教 error Invalid maximum heap size: -Xmx...
  • 10 votes
     answers
     views

    使用spark-submit, - length-executor-cores选项的行为是什么?

    我正在使用python包装的C代码运行一个spark集群 . 我目前正在测试多线程选项的不同配置(在Python级别或Spark级别) . 我在HDFS 2.5.4集群上使用带有独立二进制文件的spark . 该集群目前由10个从站组成,每个从站有4个核心 . 从我所看到的,默认情况下,Spark每个节点启动4个从站(我一次有4个python在从属节点上工作) . 我怎样才能限制这个数字?我可以看...
  • 0 votes
     answers
     views

    Spark工作花费更多时间(增加)内存

    Why Spark job is taking more time with more(increased) memory. Scenario :在3节点Spark集群中,我正在运行一个spark作业,它从文件读取记录并将其写入Cassandra.Spark作业大约需要1.5分钟,应用程序内存为 512MB ,驱动程序内存为 256MB . 当我增加应用程序内存和驱动程序时内存分别为 2gb 和...
  • 2 votes
     answers
     views

    从数据框中选择时重命名列名

    我有2个数据帧:df1和df2,我在id列上将它们连接起来并保存到另一个名为df3的数据帧 . 下面是我正在使用的代码,它可以正常工作 . val df3 = df1.alias("tab1").join(df2.alias("tab2"),Seq("id"),"left_outer").select("ta...
  • -1 votes
     answers
     views

    hiveql删除重复项,包括重复的记录

    我有一个select语句,我存储在数据帧中.... val df = spark.sqlContext.sql("select prty_tax_govt_issu_id from CST_EQUIFAX.eqfx_prty_emp_incm_info where emp_mtch_cd = 'Y' and emp_mtch_actv_rcrd_in = 'Y' and emp_sts_...
  • 14 votes
     answers
     views

    HBase获取单元格的所有带时间戳值

    我的hbase实例中有以下场景 hbase(main):002:0> create 'test', 'cf' 0 row(s) in 1.4690 seconds hbase(main):003:0> put 'test', 'row1', 'cf:a', 'value1' 0 row(s) in 0.1480 seconds hbase(main):004:0> put '...
  • 1 votes
     answers
     views

    使用月份作为HBase中的列族

    我正在尝试设计一个用于在HBase中存储时间序列数据的表 . 由于所有在一个月内写入的数据都将被读取"all at once"进行分析,我想知道 using the month (as a string, like '201501') as column family 是否是一个不错的选择 . 我的应用程序将在数据到达时以时间戳保存,然后在月末,将使用hadoop作业分析与该月...
  • 1 votes
     answers
     views

    HBase中的mutateRow()通过Thrift需要未记录的第四个参数

    当我尝试通过Thrift(特别是Python)对HBase进行插入/更新时,mutateRow()需要第四个参数“attributes” . Thrift说这个列是一个字符串 - >字符串映射 . 没有任何示例和在线讨论提到第四列,甚至提供相同,精确版本的HBase的Thrift示例也没有 . 如果可以,请仅提供创建表,定义列族,插入行和转储数据的完整示例 .
  • 0 votes
     answers
     views

    在HBASE中使用协处理器时出现NullPointerException?

    我正在使用带有HDFS的HBASE 0.94.8 . 我已经实现了协处理器来进行值的求和 . 该表只有两行 hbase(main):043:0>扫描'demo'ROTH COLUMN CELL row1 column = info:category,timestamp = 1375438808010,value = web row1 column = info:hits,timestamp...
  • 1 votes
     answers
     views

    Phoenix视图没有正确读取HBase数值

    我的HBase表包含包含bigint的列 . 那些从Hive声明的bigint,我用Hive来generate all HBase's HFiles for bulk loading . 从HBase shell我可以打印行并查看相应的整数值: ... 00000020-079e-4e9f-800b-e71937a78b5d column=cf:p_le_id, timestamp=1428...
  • 2 votes
     answers
     views

    Hbase completebulkload卡在AWS EMR上

    因此,我尝试使用HBase批量加载将一些数据加载到HBase中 . 这是我的堆栈设置:HBase版本1.3.1 Hadoop版本:2.7.3 EMR版本5.10 . 簇大小:20个R4.2xlarge实例 . 我有一个hbase表,它预先拆分为400个区域,HexStringSplit用于行键 . 该表只包含一个列族,并使用lz4压缩算法 然后我尝试使用bulkload将一些数据加载到表中 . 我...
  • 0 votes
     answers
     views

    在Hbase中,ResultScanner和initTableMapperJob之间的扫描有何不同

    我希望有人可以告诉我这两个API调用之间的区别是什么 . 我在他们两个之间得到了奇怪的结果 . 这适用于hbase-client / hbase-server版本1.0.1和1.2.0-cdh5.7.2 . 首先,我的rowkeys采用hash_name_timestamp格式,例如100_servername_1234567890 . hbase表的TTL为30天,因此30天以后的事情应该在压...
  • 1 votes
     answers
     views

    HBase多列系列性能

    我有2个HBase表 - 一个有一个列族,另一个有4个列族 . 两个表都由相同的rowkey键控,并且列族每个都有一个列限定符,json字符串作为值(每个json有效负载大小约为10-20K) . 所有列族都使用快速差异编码和gzip压缩 . 在向每个表加载大约60MM的行之后,对第二个表中任何单个列族的扫描测试需要4倍的时间来扫描第一个表中的单个列族 . 请注意,第二个表上的扫描使用addFam...
  • 0 votes
     answers
     views

    SQOOP导入失败,找不到文件异常

    我是hadoop架构系统的新手,并使用网络搜索安装组件 . 为此,我安装了Hadoop,sqoop,hive . 这是我的安装的目录结构(我的本地ubuntu机器而不是任何虚拟机,每个我的安装都在不同的目录中): - / usr / local / hadoop / usr / local / sqoop / usr / local / hive By looking at err...
  • 0 votes
     answers
     views

    尝试连接时出现Sqoop错误

    我正在尝试运行以下Sqoop命令: sqoop import --connect jdbc:mysql://localhost:3306/sunil_sqoop --table sqoop_emp --username root --password 225dvrdlr) 但是,我收到此错误: 17/02/04 00:04:53 WARN security.UserGroupInformat...
  • 0 votes
     answers
     views

    从sqoop导入到hdfs错误

    我在从SQOOP进口到HDFS的过程中遇到了错误 INFO mapreduce.JobSubmitter:清理临时区域文件:/tmp/hadoop-root/mapred/staging/root226175073/.staging/job_local226175073_0001线程“main”中的异常java.lang.IncompatibleClassChangeError:找到的接口org....
  • 0 votes
     answers
     views

    可以在hadoop中有一个场景,其中只有1个map任务和0个reduce任务?

    我知道Map-phase的结果是一个中间结果,它将是reduce-phase的输入 . 最近,我在hadoop权威指南中读到“Map-tasks的结果存储在磁盘中(即不在HDFS中,因为它们是中间结果),只有Reduce-phase的结果存储在HDFS中” . 所以,通过上面的句子我的理解是,如果有一个Map任务,那么也应该有一个reduce任务 . 因为map-task的结果只是一个中间结果并将...
  • 0 votes
     answers
     views

    Sqoop导入错误消息ERROR tool.ImportTool:导入失败:ENOENT:没有这样的文件或目录选项

    运行sqoop import语句时出错 sqoop import \ --connect jdbc:mysql:// localhost:3306 / retail_db \ --username retail_dba \ --password cloudera \ --table orders \ --target-dir / user / cloudera / problem1 / order...
  • 0 votes
     answers
     views

    执行sqoop作业时找不到文件错误

    当我执行sqoop作业时,它会抛出FileNotFoundException错误,如下所示 18/05/29 06:18:59 INFO orm.CompilationManager:编写jar文件:/tmp/sqoop-hduser/compile/0ce66d1f09ce960a71c165855afbe42c/QueryResult.jar 18/05/29 06:18:59 INFO m...

热门问题