首页 文章
  • 0 votes
     answers
     views

    Hadoop可以做流式传输吗?

    有人建议Hadoop做流媒体,并引用Flume和Kafka作为例子 . 虽然我知道他们可能有流媒体功能,但我想知道他们是否可以像Storm / Spark / Flink这样的流处理技术被认为是同一个联盟 . Kafka是一个“发布 - 订阅模型消息传递系统”,Flume是一种数据提取工具 . 即使他们与hadoop互动/整合,他们在技术上是'hadoop'本身的一部分吗? PS:据我所知,有一...
  • 0 votes
     answers
     views

    Flume使用hdfs sink . 如何在hdfs不可用时确保数据完整性?

    当hdfs不可用时,有没有办法确保数据安全?场景是:kafka-source,flume memory-channel,hdfs-sink . 如果水槽服务中断,它是否可以存储主题分区的偏移并在恢复后从正确的位置消耗怎么办?
  • 1 votes
     answers
     views

    通过水槽将事件数据写入HDFS时出错

    我正在使用cdh3 update 4 tarball进行开发 . 我已经开始运行了 . 现在,我还从cloudera viz 1.1.0下载了等效的flume tarball,并尝试使用hdfs-sink将日志文件的尾部写入hdfs . 当我运行flume代理时,它开始运行正常但在尝试将新事件数据写入hdfs时最终会出错 . 我找不到比stackoverflow更好的发布这个问题的小组 . 这是我...
  • 0 votes
     answers
     views

    Apache Flume ../flume.log权限被拒绝使用spooldir作为源,但与其他来源一样好

    我使用Flume很新,刚开始使用CDH 4.7.0分发测试它 . 我正在通过Cloudera Manager配置Flume . 我使用序列生成器作为源设置了代理,一切都很顺利,但是当将源配置为假脱机目录时,我遇到了错误: log4j:ERROR setFile(null,true)调用失败 . java.io.FileNotFoundException:/var/log/flume-ng/flu...
  • 1 votes
     answers
     views

    使用flume反序列化Json文件并沉入HDFS

    我有一个假脱机目录,其中存在所有json文件,传入文件将每秒添加到此目录中,并且我必须反序列化传入的json文件并获取requires字段并将其附加到HDFS目录中 . 我做的是我创建了一个flume conf文件,其中将来自假脱机目录的文件作为源并使用1 Sink将json文件直接放入HDFS . 我必须在Sink之前将这个json变成结构格式并将其放入HDFS . 最重要的是,它不是Twitt...
  • 2 votes
     answers
     views

    配置flume来查看新日志的目录

    我正在尝试配置flume来观看hadoop任务日志目录,因此当新任务启动时,任务日志将流式传输到水槽并过滤一些事件日志并将其发送到某处(当作业仍在运行时) . 是否有可以使用的Flume源?像exec source tail这样的东西,但是当flume agent启动时,不知道完整的文件路径 . 我认为在这里不能使用假脱机目录,因为我需要在写入时扫描日志 .
  • 1 votes
     answers
     views

    HDFS Flume接收器 - 按文件滚动

    只要单个文件(来自Flume源,比如假脱机目录)结束,而不是在某些字节(hdfs.rollSize),时间(hdfs.rollInterval)或事件(hdfs.rollInterval)之后滚动,HDFS Flume接收器是否可以滚动? )? 可以配置Flume以便单个文件是单个事件吗? 感谢您的输入 .
  • 0 votes
     answers
     views

    如何在ftp源水槽代理中保留文件的原始基名

    我配置了一个水槽代理,它从FTP服务器读取并将文件发送到hdfs接收器 . 我的大问题是,我想用原始文件名存储hdfs中的文件 . 我尝试使用Spooldir源代码,它工作正常并且能够使用它们的基本名称在hdfs中存储文件,但是flume agent crush: 1)如果在放入假脱机目录后写入文件,Flume会在其日志文件中输出错误并停止处理 . 2)如果文件名稍后重复使用,Flume会在其日志...
  • 1 votes
     answers
     views

    如何使用flume和现有模式文件在hdfs上存储数据

    我有来自源的json数据,我想使用avro格式的水槽将其转储到hdfs,我已经有了avsc文件,我使用以下配置为接收器,但那不是选择我的avsc文件,而是创建自己的架构: agent1.sinks.sink1.type = hdfs agent1.sinks.sink1.serializer = org.apache.flume.serialization.AvroEventSerializer...
  • 7 votes
     answers
     views

    在接收器发生故障后,如何强制Flume-NG处理积压的事件?

    我正在尝试设置Flume-NG从一堆服务器(主要运行Tomcat实例和Apache Httpd)收集各种日志,并将它们转储到5节点Hadoop集群上的HDFS中 . 设置如下所示: 每个应用程序服务器将相关日志转换为Exec Sources之一(每个日志类型一个:java,httpd,syslog),它们通过FileChannel传送到Avro接收器 . 在每台服务器上,不同的源,通道和接收器由...
  • 2 votes
     answers
     views

    Flume没有将日志写入Hdfs

    所以我配置水槽把我的apache2访问日志写入hdfs ...并且我想通过水槽的日志是所有的配置是正确的但我不知道为什么它仍然没有写入hdfs . 所以这是我的flume配置文件 #agent and component of agent search.sources = so search.sinks = si search.channels = sc # Configure a channe...
  • 0 votes
     answers
     views

    为什么MapReduce Job没有完全加载附加文件?

    我有一个将数据流传输到HDFS接收器(附加到同一文件)的水槽,我可以“猫”并从HDFS中看到它 . 但是,MapReduce作业仅获取已刷新的第一批(bacthSize = 100) . 其余的都没有被拿起来,虽然我可以看看剩下的 . 当文件滚动(关闭)后执行MapRecue作业时,它会拾取所有数据 . 你知道为什么MR工作无法找到批次的其余部分,即使它存在 .
  • 5 votes
     answers
     views

    使用Flume将CSV文件写入HDFS

    我正在使用Flume从我的本地文件系统向HDFS写入许多CSV文件 . 我想知道什么是Flume HDFS接收器的最佳配置,这样本地系统上的每个文件都将完全以HDFS格式复制为CSV . 我希望Flume处理的每个CSV文件都是单个事件,刷新并写为单个文件 . 尽可能地,我希望文件完全相同,没有 Headers 内容等 . 我需要将这些值放在哪里来模拟我想要的行为? hdfs.batchSize ...
  • 0 votes
     answers
     views

    IIS日志实时调整Hadoop

    我正在尝试在Hadoop中进行POC以进行日志聚合 . 我们有多个IIS服务器托管至少100个站点 . 我想将日志连续地传输到HDFS并解析数据并存储在Hive中以进行进一步的分析 . 1)Apache KAFKA是正确选择还是Apache Flume 2)流式传输之后,最好使用Apache风暴并将数据提取到Hive中 请帮助提出任何建议以及此类问题陈述的任何信息 . 谢谢
  • 1 votes
     answers
     views

    Flume不会将数据存储到hbase

    虽然我能够正确地将Flume数据(来自Kafka)存储在HDFS中,但我没有运气将它们存储在HBase中......平台是Cloudera 5.10.1 . 我的水槽是: tier1.sources = source1 tier1.channels = channel1 #tier1.sinks = hdfs1 tier1.sinks = hbase1 tier1.sources.source...
  • 3 votes
     answers
     views

    如何在不指定源的情况下使用Flume的Kafka Channels

    我有一个现有的Kafka主题和一个从那里读取并写入HDFS的水槽代理 . 我想重新配置我的水槽代理,这样它就会远离现有的设置;一个Kafka源,文件通道到HDFS接收器,使用Kafka Channels . 我在cloudera documentation中读到可以通过仅使用Kafka通道和HDFS接收器(没有水槽源)实现这一点..(除非我得到了错误的结束 . )所以我尝试创建这个配置但是它is...
  • 1 votes
     answers
     views

    Pyspark错误读取文件 . Flume HDFS接收器使用user = flume和权限644导入文件

    我正在使用Cloudera Quickstart VM 5.12 我有一个Flume代理将来自spooldir源的CSV文件移动到HDFS接收器中 . 操作正常,但导入的文件有: User=flume Group=cloudera Permissions=-rw-r--r-- 当我使用Pyspark并获得时,问题就开始了: PriviledgedActionException as:clou...
  • 0 votes
     answers
     views

    MapReduce作业不处理Flume存储的所有事件

    我说有12个事件发送到Flume,将它们存储到HDFS接收器中 . 由Flume创建的文件具有.tmp扩展名,因为它配置为根据文件大小滚动文件 . 当我执行 hdfs dfs -cat /some/path/file-stored-by-flume.1526623078683.tmp 时,打印出所有10个事件 . 不幸的是,在该文件上安排MapReduce作业只会导致映射器消耗的前几行 . 任何想...
  • 2 votes
     answers
     views

    无法在flume-ng中创建类型为HDFS的接收器

    我有一个将日志写入HDFS的flume-ng .我在一个节点中创建了一个代理 .但它没有运行 .有我的配置 . #example2.conf:单节点Flume配置 #为此代理命名组件agent1.sources = source1agent1.sinks = sink1agent1.channels = channel1 #描述/配置source1agent1.sources.source1.t...
  • 3 votes
     answers
     views

    使用hdfs作为接收器时,NoSuchMethod错误

    我正在尝试将HDFS配置为水槽 . 这是我的flume.conf文件: agent1.channels.ch1.type = memory agent1.sources.avro-source1.channels = ch1 agent1.sources.avro-source1.type = avro agent1.sources.avro-source1.bind = 0.0.0.0 age...
  • 0 votes
     answers
     views

    水槽总是在监视器日志中使用agent-shutdown-hook自动停止

    我在Linux Ubuntu中运行了一个Flume,它运行得更好,但是在大约一天之后它总是停止运行,以下是水槽配置: nginx.channels=ch-spooling ch-tail nginx.sources=spooling-source tail-source nginx.sinks=hdfs-spooling kafka-tail nginx.channels...
  • 0 votes
     answers
     views

    Flume代理不在不同的机器上连接

    Flume agent 1 does not connect to Flume agent 2. What could be the reason ? 我使用Flume使用2个代理将日志文件流式传输到HDFS . first agent 位于存在日志文件的源计算机上,而 second agent 位于安装了Hadoop的计算机(IP地址为10.10.201.40)中 . The config...
  • 0 votes
     answers
     views

    Flume ng / Avro源,内存通道和HDFS接收器 - 太多小文件

    我面临一个奇怪的问题 . 我希望将大量信息从水槽汇总到HDFS . 我应用推荐配置以避免太多小文件,但它不起作用 . 这是我的配置文件 . # single-node Flume configuration # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/c...
  • 0 votes
     answers
     views

    Apache Flume HDFS接收器文件写入有哪些保证?

    如果Flume代理在HDFS文件写入中间被杀(比如使用Avro格式),有人可以了解一下会发生什么吗?该文件是否会损坏,所有事件都会丢失? 据我所知,Flume数据链的不同元素之间存在交易(source-> channel-> sink) . 但我相信HDFS文件可能会在连续的channel-> sink事务(如.tmp)之间保持打开状态 . 因此,如果100个事件的一个事务成功(...
  • 0 votes
     answers
     views

    当更改到新的一天的目录后,Flume在HDFS中留下.tmp文件

    我正在使用Flume 1.7.0和HDFS接收器 . 我将Flume配置为将数据放入HDFS的日期目录中,以便在新的一天到来时自动更改目录 . 问题是我设置了文件大小(240MB),但是当目录发生变化时,水槽每天都会留下.tmp文件 . 在没有关闭未完成的文件(小于240MB)的情况下,它似乎改变了新的一天的目录 . 例如 . 如果我开始3个水槽剂 . 然后当水槽代理改变到新目录20180411时...
  • 6 votes
     answers
     views

    使用Kafka将数据导入Hadoop

    首先,我正在考虑使用什么来将事件放入Hadoop,在那里存储它们并定期对它们进行分析(可能使用Ooozie来安排定期分析)Kafka或Flume,并决定Kafka可能是一个更好的解决方案,因为我们还有一个用于执行事件处理的组件,因此以这种方式,批处理和事件处理组件以相同的方式获取数据 . 但是知道我正在寻找具体的建议如何从经纪人那里获取数据到Hadoop . 我找到here,Flume可以和Kaf...
  • 1 votes
     answers
     views

    将数据加载到Hadoop中

    我试图找出这两个问题的正确答案,这两个问题都涉及将数据加载到我在网上找到的Hadoop,作为我研究Hadoop开发的材料和案例研究的一部分 . 第一个问题是: You have user profile records in your OLPT database, that you want to join with web logs you have already ingested into ...
  • 0 votes
     answers
     views

    我应该如何通过水槽将数据插入到elasticsearch?

    Flume Version 1.8.0 Elasticsearch 5.0.0 Java Version 1.8.0_101 我在/ flume / lib中放了elasticserach-5.0.0.jar和lucene-core-5.0.0.jar 这是我的flume配置脚本 a1.channels = ch1 a1.sources = r1 a1.sinks = s1 a1.channel...
  • 2 votes
     answers
     views

    Flafka:如何写入通过Flume代理在msg类型上分区的partitoined Kafka主题( Channels )

    在我的项目中,我们总共有11个WSMQ作为Flume代理的来源 . Kafka主题作为 Channels ,Kafka主题在消息类型上进行分区 . HDFS作为接收器 . 要求:我们希望使用flume-agent从多个队列中读取并写入kafka主题的特定分区,以便在以后的时间点,我们可以从这些kafka分区读取数据 . 现在,我们在代理编写消息的每个队列中总共有11个kafka主题 . 我们希...
  • 2 votes
     answers
     views

    自定义Flume拦截器:intercept()方法为同一事件多次调用

    TL;DR 当Flume源无法将事务推送到管道中的下一个通道时,它是否始终为下一次尝试保留事件实例? 一般来说,拥有一个有状态的Flume拦截器是否安全,其中事件的处理取决于先前处理的事件? Full problem description: 我正在考虑利用Apache Kafka提供的关于主题分区在消费者群体中的消费者之间分配以在现有的基于Flume的日志整合架构中执行流重复数据删除的方式的可能...

热门问题