首页 文章
  • 0 votes
     answers
     views

    在Cloudera Hue中为Oozie配置正确的端口(调用PIG脚本)

    我是CDH4 Oozie工作流编辑器的新手 . 在尝试从Oozie工作流编辑器调用pig脚本时,我收到以下错误 . HadoopAccessorException: E0900: Jobtracker [mymachine:8032] not allowed, not in Oozies whitelist 看起来Oozie正在向Yarn端口(8032)提交作业 . 我希望它提交到8021(MR...
  • 2 votes
     answers
     views

    PIG - 找到接口org.apache.hadoop.mapreduce.JobContext,但是期望了类

    我试图从蜂巢中加载一张 table . 我正在使用Hcatalog . 我使用登录hive pig -useHCatalog 我从蜂房和hadoop出口几乎所有的 jar register 'hdfs://localhost:8020/user/pig/jars/hive-jdbc-0.10.0-cdh4.5.0.jar'; register 'hdfs://localhost:8020/us...
  • 1 votes
     answers
     views

    猪没有使用Hcatalog找到Hive Table

    我使用PIG访问通过HCatalog创建的表batting_data . 在这样做时,我面临一个错误,说没有找到提到的表 . 但是,这个batting_data表可用于HIVE . 我也明白,如果没有提到数据库名称,则假定为default . ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1115: Table not found : default...
  • 1 votes
     answers
     views

    将数据加载到Hadoop中

    我试图找出这两个问题的正确答案,这两个问题都涉及将数据加载到我在网上找到的Hadoop,作为我研究Hadoop开发的材料和案例研究的一部分 . 第一个问题是: You have user profile records in your OLPT database, that you want to join with web logs you have already ingested into ...
  • 0 votes
     answers
     views

    使用pig从csv文件中读取数据

    我'm trying to read a csv file on pig shell on mac. All I'做的是 load 一个变量的文件和 dump 变量 . 我是这样做的: movies = LOAD '/user/myhome/movies_data.csv' USING PigStorage(',') as (id,name,year,rating,duration); DUMP ...
  • 1 votes
     answers
     views

    在多节点Cassandra集群上运行猪

    我正在研究BI流程,它将从cassandra读取数据,使用Map Reduce创建摘要并写回不同的密钥空间 . 从单个节点开始,一切都按预期工作,但是当移动到多节点时,我不确定我是否完全理解拓扑和配置 . 我有3个节点的设置 . 每个都有一个Cassandra节点(版本1.1.9),数据节点和任务跟踪器(版本0.20.2 923.421-CDH3U5) . NameNode和作业跟踪器位于不同的...
  • 0 votes
     answers
     views

    运行猪脚本给我错误:你是一个Hue管理员但不是HDFS超级用户(这是“hdfs”)

    我正在使用cloudera quickstart vm-4.7 . 我无法运行猪脚本,因为它抛出以下错误消息: 无法访问:/pigwordcount/wordcountinput.txt . 注意:您是Hue管理员,但不是HDFS超级用户(即“hdfs”) . [Errno 2]找不到文件/pigwordcount/wordcountinput.txt 它给了我“找不到文件”,但文件已存在于...
  • 0 votes
     answers
     views

    错误2118:输入路径不存在

    我从shell脚本运行猪脚本,我连接50个文件并将其放入hdfs,但当我尝试使用猪脚本加载文件时,我收到错误 ERROR 2118:输入路径不存在: 但文件在那里,当我尝试删除文件时,我收到的色调错误信息是: 无法执行操作 . 注意:您是Hue管理员,但不是HDFS超级用户,“hdfs”或HDFS超级组的一部分,“超级组” . [Errno 2]找不到文件/ user / cloudera...
  • 0 votes
     answers
     views

    在HDP Hue Pig UI中运行任何Pig作业时出错 . 错误:“请初始化HIVE_HOME”

    当我尝试从Hue Pig UI启动Pig Script Job时,该过程启动一个作业,然后进度条在那里停留1-3分钟并最终全部变为红色,唯一的输出是:“请初始化HIVE_HOME” . 我试图运行的我的猪脚本来自Pig validation in the HDP installation manual . 猪脚本:A =使用PigStorage加载'passwd'(':');B = foreach...
  • 3 votes
     answers
     views

    如何使用Pig将数据存储在HDFS上的多个分区文件中

    我有一个猪工作,分析大量的日志文件,并生成一组属性和一袋具有这些属性的ID之间的关系 . 我想将这种关系存储在HDFS上,但我希望以一种友好的方式对其他Hive / Pig / MapReduce作业进行操作,以便对数据或数据的子集进行操作而无需完全摄取我的猪工作的输出,因为这是一个大量的数据 . 例如,如果我的关系的架构是这样的: relation: {group: (attr1: long,a...
  • 1 votes
     answers
     views

    无法在Apache Tez上运行Pig latin脚本

    我有一个伪分布式单集群Ubuntu机器 . 我编写了一个简单的猪拉丁脚本,在使用mapreduce作为执行模式时运行正常 . 但是当我使用-x开关使用tez作为执行模式时,我得到了以下错误 2015-08-17 17:12:22,344 [PigTezLauncher-0] ERROR org.apache.pig.backend.hadoop.executionengine.tez.TezJo...
  • -3 votes
     answers
     views

    嗨,我试图在Apache Zeppelin上运行一个猪脚本,它给了我错误

    org.apache.pig.backend.executionengine.ExecException:ERROR 4010:在类路径中找不到hadoop配置(在类路径中找不到hadoop-site.xml和core-site.xml) . 如果您打算使用本地模式,请在org.apache.pache.backend.hadoop的org.apache.pig.backend.hadoop.e...
  • 0 votes
     answers
     views

    完成33%后猪 Map 减少工作失败

    我正在apache pig中运行group by子句,它正在创建map reduce工作,它在1/3完成后失败 . 无论如何我可以解决这个问题,因为日志没有给出任何失败的原因 . 我正在寻找以下任何一个 .1.找到确切错误的一些方法(即内存错误,数据类型错误等)2.任何使日志更加冗长以在屏幕上写入更多错误消息的方法 . 2016-04-03 22:59:40,252 [main] INFO or...
  • 5 votes
     answers
     views

    在Pig中更改Jython独立jar

    我试图找到一种方法来替换Pig在Hadoop上使用的jython-standalone-2.5.3.jar版本 . Pig 12目前使用jython-standalone-2.5.3.jar,我正在尝试使用jython 2.7 beta4 . 更换jython版本并确保Pig识别出更改的好方法是什么 . 当我尝试更换jar时,Pig仍然在路径中有旧的jython jar,我正在尝试找到可以替换它...
  • 0 votes
     answers
     views

    BigData / Hadoop项目的典型流程?

    我最近开始学习像SQOOP,Hive,Pig这样的BigData技术,并发现有多种替代方法(如SQOOP,HiveQL等)可用于解决给定问题 . 我对技术/工具的选择感到有点困惑 . 如果您在大多数情况下采用任何典型的Microsoft BI项目流程 SSIS(处理原始数据) - > SSAS(创建OLAP DB) - > SSRS(生成报告) . 类似于此,BigData / Had...
  • 10 votes
     answers
     views

    Hadoop,Hive,Pig,HBase,Cassandra - 何时使用什么? [关闭]

    首先,我对Big Data和Hadoop世界相对较新,我刚刚开始尝试使用Hortonworks Sandbox(目前为止的Pig和Hive) . 我想知道在哪些情况下我可以使用上面提到的Hadoop,Hive,Pig,HBase和Cassandra的工具? 在我的沙箱环境中,文件只有9MB Hive和Pig的响应时间为几秒到几分钟 . 这显然在某些情况下不可用,例如Web应用程序(除非它是其他东西...
  • 2 votes
     answers
     views

    猪hbase hadoop2整合

    有任何人在hadoop-2.20 hbase-0.98.0 pig-0.12.0组合的环境中,在hadoop-2.2.0上从pig-0.12.0将数据加载到hbase-0.98.0的成功经验,没有遇到此错误: ERROR 2998: Unhandled internal error. org/apache/hadoop/hbase/filter/WritableByteArrayComparabl...
  • 1 votes
     answers
     views

    pig - 从远程hbase服务器读取/写入数据

    我想从pig脚本读取/写入hbase远程服务器的数据 . 我们正在使用Hortonworks HDP 2.5 以下是场景 . 我们有两个集群,一个用于Hive,另一个用于Hbase . 我们可以访问作为Hive集群一部分的边缘节点 . 我们的代码(MapReduce作业和Pig脚本)将在Hive集群上执行 . 作为需求的一部分,我们还必须从Hbase表读取/写入数据 . 我们在网上找到了一个解决方...
  • 0 votes
     answers
     views

    如何读取存储在用猪创建的hdfs上的pyspark的文件?

    一位同事用猪创建了一些文件,并将它们保存在hdfs上 . 文件夹名称XYZ .pig_header .pig_schema _SUCCESS part-r-00000 我喜欢在pyspark读它们 . 我该怎么做呢 ? 我已经从hive中成功读取了文件 . 此外,我能够使用pyspark从我自己创建的hdfs中读取文件 运用 df = spark.read.csv('XY...
  • 0 votes
     answers
     views

    需要替换存储在hdfs中的镶木地板文件中的控制字符

    我将数据从MySQL导入到hdfs作为镶木地板文件,并在其上构建一个hive外部表,但该文件中有少量不需要的控制字符也被加载到hive表中 . 我需要用空字符串替换那些 . 我尝试过猪,但没有运气 . 以下是返回问题的火花代码 . PYSPARK代码: sc = spark.sparkContext # using SQLContext to read parquet file from pysp...
  • 248 votes
     answers
     views

    猪和蜂巢之间的区别?为什么两者都有? [关闭]

    我的背景 - 在Hadoop世界4周大 . 在Map-Reduce和GFS(PDF link)上使用Cloudera _1252819的论文在Hive,Pig和Hadoop中略微涉足 . 我明白那个- Pig的语言Pig Latin是一种转变(适合程序员认为的方式)SQL就像声明式编程风格和Hive的查询语言非常类似于SQL . Pig坐在Hadoop之上,原则上也可以坐在Dryad之上 ...
  • 0 votes
     answers
     views

    Hue上的Pig脚本错误

    HUE版本:hue-3.9.0 cdh5.11.2 5098-1.cdh5.11.2.p0.7.el6.x86_64 CDH版本:2.6.0-cdh5.11.2 猪脚本: A = LOAD'/ user / hdfs / test_data'; DUMP A; 在shell上运行此脚本时,它成功运行 但是当在Hue上运行它会挂起50%的检查日志 ��h��׶9�A@���P VERSIONAPP...

热门问题