首页 文章
  • 0 votes
     answers
     views

    只将有效负载写入hdfs

    在我的单一课程中,我必须 Build 一个小“大数据”项目 . 为此,我从API收集数据并将其写入文件,每个新数据集都附加到该文件 . 一个kafka制作人收集了这些数据,我已经设置了水槽将其写入HDFS . 它工作正常,但我得到了我不想要的信息 {"schema":{"type":"string","optional&quot...
  • 0 votes
     answers
     views

    编写Flume配置,将不断增长的文件上传到HDFS

    我是Flume的新手,并且在配置方面遇到了一些问题 . 我在Oracle VirtualBox上使用Hortonworks Sandbox HDP 2.6.5(如果这很重要) . 我的VM中有一个文本文件 input_data.txt : input_data.txt的内容如下所示: 我使用以下命令创建并逐渐增加输入: cat input_data.txt | while read line ; ...
  • 1 votes
     answers
     views

    Apache Flume为每行写入创建新文件

    我正在做一些体验来感受水槽 . 以下是我的配置文件 . agent.channels.memory-channel.type = memory agent.sources.tail-source.type = exec agent.sources.tail-source.command = tail -F /root/test.txt agent.sources.tail-source.chan...
  • 1 votes
     answers
     views

    Flume HDFS-200附加

    页面https://cwiki.apache.org/confluence/display/FLUME/Getting+Started表示HDFS接收器支持附加但我无法找到有关如何启用它的任何信息,每个示例都在滚动文件上 . 所以,如果可能的话,我会很感激有关如何将水槽附加到现有文件的任何信息 Update 可以将所有滚动属性设置为0,这将使得水槽写入单个文件,但它不会关闭文件,并且新记录对其他进...
  • 2 votes
     answers
     views

    将数据下沉到hdfs时,配置flume不生成.tmp文件

    我正在使用flume将数据从服务器日志传输到hdfs . 但是当数据流入hdfs时,它首先创建.tmp文件 . 配置中是否有一种方法可以隐藏.tmp文件,或者可以通过附加a来更改名称 . 在前 . 我的收集代理文件看起来像 - ## TARGET AGENT ## ## configuration file location: /etc/flume/conf ## START Agent: fl...
  • 4 votes
     answers
     views

    Flume代理:将主机添加到消息,然后发布到kafka主题

    我们开始通过将消息发布到Kafka主题来整合来自应用程序的事件日志数据 . 虽然我们可以直接从应用程序写入Kafka,但我们选择将其视为一般问题并使用Flume代理 . 这提供了一些灵活性:如果我们想从服务器捕获其他东西,我们可以只是拖尾不同的源并发布到不同的Kafka主题 . 我们创建了一个Flume代理配置文件来拖尾日志并发布到Kafka主题: tier1.sources = source1...
  • 0 votes
     answers
     views

    Flume流式传输gz文件

    我有一个包含很多gzip文件的文件夹 . 每个gzip文件都包含xml文件 . 我曾使用flume将文件流式传输到HDFS . 以下是我的配置文件: agent1.sources = src agent1.channels = ch agent1.sinks = sink agent1.sources.src.type = spooldir agent1.sources.src.spoolDir...
  • 1 votes
     answers
     views

    使用flume反序列化Json文件并沉入HDFS

    我有一个假脱机目录,其中存在所有json文件,传入文件将每秒添加到此目录中,并且我必须反序列化传入的json文件并获取requires字段并将其附加到HDFS目录中 . 我做的是我创建了一个flume conf文件,其中将来自假脱机目录的文件作为源并使用1 Sink将json文件直接放入HDFS . 我必须在Sink之前将这个json变成结构格式并将其放入HDFS . 最重要的是,它不是Twitt...
  • 0 votes
     answers
     views

    如何在ftp源水槽代理中保留文件的原始基名

    我配置了一个水槽代理,它从FTP服务器读取并将文件发送到hdfs接收器 . 我的大问题是,我想用原始文件名存储hdfs中的文件 . 我尝试使用Spooldir源代码,它工作正常并且能够使用它们的基本名称在hdfs中存储文件,但是flume agent crush: 1)如果在放入假脱机目录后写入文件,Flume会在其日志文件中输出错误并停止处理 . 2)如果文件名稍后重复使用,Flume会在其日志...
  • 1 votes
     answers
     views

    如何使用flume和现有模式文件在hdfs上存储数据

    我有来自源的json数据,我想使用avro格式的水槽将其转储到hdfs,我已经有了avsc文件,我使用以下配置为接收器,但那不是选择我的avsc文件,而是创建自己的架构: agent1.sinks.sink1.type = hdfs agent1.sinks.sink1.serializer = org.apache.flume.serialization.AvroEventSerializer...
  • 2 votes
     answers
     views

    Flume没有将日志写入Hdfs

    所以我配置水槽把我的apache2访问日志写入hdfs ...并且我想通过水槽的日志是所有的配置是正确的但我不知道为什么它仍然没有写入hdfs . 所以这是我的flume配置文件 #agent and component of agent search.sources = so search.sinks = si search.channels = sc # Configure a channe...
  • 0 votes
     answers
     views

    为什么MapReduce Job没有完全加载附加文件?

    我有一个将数据流传输到HDFS接收器(附加到同一文件)的水槽,我可以“猫”并从HDFS中看到它 . 但是,MapReduce作业仅获取已刷新的第一批(bacthSize = 100) . 其余的都没有被拿起来,虽然我可以看看剩下的 . 当文件滚动(关闭)后执行MapRecue作业时,它会拾取所有数据 . 你知道为什么MR工作无法找到批次的其余部分,即使它存在 .
  • 3 votes
     answers
     views

    如何在不指定源的情况下使用Flume的Kafka Channels

    我有一个现有的Kafka主题和一个从那里读取并写入HDFS的水槽代理 . 我想重新配置我的水槽代理,这样它就会远离现有的设置;一个Kafka源,文件通道到HDFS接收器,使用Kafka Channels . 我在cloudera documentation中读到可以通过仅使用Kafka通道和HDFS接收器(没有水槽源)实现这一点..(除非我得到了错误的结束 . )所以我尝试创建这个配置但是它is...
  • 0 votes
     answers
     views

    将在线数据收集到hdfs时的水槽丢失数据

    我使用 flume-ng 1.5 版本来收集日志 . 数据流中有两个代理,它们分别位于两个主机上 . 并且数据被发送 from agent1 to agent2. 代理商的组成部分如下: agent1:假冒dir源 - >文件通道 - > avro sink agent2:avro源 - >文件通道 - > hdfs sink But it seems to loss ...
  • 0 votes
     answers
     views

    Flume代理不在不同的机器上连接

    Flume agent 1 does not connect to Flume agent 2. What could be the reason ? 我使用Flume使用2个代理将日志文件流式传输到HDFS . first agent 位于存在日志文件的源计算机上,而 second agent 位于安装了Hadoop的计算机(IP地址为10.10.201.40)中 . The config...
  • 1 votes
     answers
     views

    Flume - 无法配置接收器 - 没有为接收器配置通道

    我已经配置了flume来读取日志文件并写入HDFS . 当我启动水槽时,会读取日志文件,但不会写入HDFS . flume.log 有警告消息 - could not configure sink - no channel configured for sink 但我已经在conf文件中分配了一个通道 . 下面给出了conf-file和错误消息: File: spool-to-hdfs.p...
  • 0 votes
     answers
     views

    当更改到新的一天的目录后,Flume在HDFS中留下.tmp文件

    我正在使用Flume 1.7.0和HDFS接收器 . 我将Flume配置为将数据放入HDFS的日期目录中,以便在新的一天到来时自动更改目录 . 问题是我设置了文件大小(240MB),但是当目录发生变化时,水槽每天都会留下.tmp文件 . 在没有关闭未完成的文件(小于240MB)的情况下,它似乎改变了新的一天的目录 . 例如 . 如果我开始3个水槽剂 . 然后当水槽代理改变到新目录20180411时...
  • 2 votes
     answers
     views

    自定义Flume拦截器:intercept()方法为同一事件多次调用

    TL;DR 当Flume源无法将事务推送到管道中的下一个通道时,它是否始终为下一次尝试保留事件实例? 一般来说,拥有一个有状态的Flume拦截器是否安全,其中事件的处理取决于先前处理的事件? Full problem description: 我正在考虑利用Apache Kafka提供的关于主题分区在消费者群体中的消费者之间分配以在现有的基于Flume的日志整合架构中执行流重复数据删除的方式的可能...
  • 0 votes
     answers
     views

    Kafka源代码与Avro源码一起使用水槽读取和写入数据到kafka Channels

    在水槽中,我有Kafka Channels ,我可以在那里读取和写入数据 . 如果我用Avro源和Avro接收器替换Kafka源和Kafka接收器,读取和写入Kafka通道的数据的性能有什么区别? 在我看来,通过用Avro-source替换Kafka-source,我将无法从Kafka代理的多个分区并行读取数据,因为在Avro-source的情况下没有指定消费者组 . 如果我错了,请纠正我 .
  • 0 votes
     answers
     views

    需要帮助调试kafka源到hdfs下沉与水槽

    我正在尝试从kafka发送数据(最终我们将使用在不同实例上运行的kafka)到hdfs . 我认为将数据输入hdfs需要使用flume或某种摄取协议 . 所以我们正在使用cloudera的水槽服务和hdfs . 这是我的flume-conf文件 . 另一个conf文件为空 tier1.sources=source1 tier1.channels=channel1 tier1.sinks=sink1...
  • 0 votes
     answers
     views

    Flume不会从kafka主题写入HDFS

    我试图从Kafka主题读取并将其存储到HDFS作为Flume接收器并且输入数据是JSON,以下是我的配置文件, # components name a1.sources = source1 a1.channels = channel1 a1.sinks = sink1 a1.sources.source1.type = org.apache.flume.source.kafka.KafkaSo...
  • 1 votes
     answers
     views

    Flume HDFS Sink在HDFS上生成大量小文件

    我有一个玩具设置使用flume向hdfs发送log4j消息 . 我无法配置hdfs接收器以避免许多小文件 . 我以为我可以配置hdfs接收器来创建一个新文件,每次文件大小达到10mb,但它仍然创建大约1.5KB的文件 . 这是我目前的水槽配置: a1.sources=o1 a1.sinks=i1 a1.channels=c1 #source configuration a1.sources.o1...
  • 4 votes
     answers
     views

    Flume用例:从HTTP读取并通过Kafka推送到HDFS

    我是Flume的新手,想在下面的场景中使用Flume . 我们的系统接收事件作为HTTP POST,我们需要将它们的副本存储在Kafka(用于进一步处理)和HDFS中的另一个副本(作为永久存储) . 我们可以将Flume源配置为HTTP,将通道配置为KAFKA,下沉为HDFS以满足我们的要求 . 这个解决方案有效吗?
  • 0 votes
     answers
     views

    SLF4j多个绑定异常

    error screenshot here 我正在尝试使用Apache flume将实时Twitter数据流式传输到HDFS . 当我运行命令./flume-ng agent -c /usr/local/apache-flume-1.4.0-bin/conf/-f/usr/local/apache-flume-1.4.0-bin/conf/ flume.conf -n TwitterAgent它给...
  • 5 votes
     answers
     views

    Flume HDFS接收器:从文件名中删除时间戳

    我为我的应用程序配置了flume代理,其中source是Spooldir,sink是HDFS 我能够在hdfs中收集文件 . 代理配置是: agent.sources = src-1 agent.channels = c1 agent.sinks = k1 agent.sources.src-1.type = spooldir agent.sources.src-1.channels = c1 ...
  • 5 votes
     answers
     views

    使用文件通道在水槽中耗尽可用空间

    我正在使用Flume将Spool目录作为源,将HDFS作为接收器,将File作为通道 . 执行水槽工作时 . 我遇到了问题 . 内存通道工作正常 . 但我们需要使用文件通道实现相同的功能 . 使用文件 Channels 我遇到了问题 . 我在flume.env.sh文件中将JVM内存大小配置为3GB . 请让我知道我们需要做的任何其他设置 . 2016年1月20日20:05:27,099 ERRO...
  • 0 votes
     answers
     views

    Flume:多个源将日志添加到单个接收器

    我试图从单台机器上的不同目录收集日志到本地文件系统文件或HDFS . 我已经注册了2个来源r1,r2 . 两个源都指向单通道C1 . 通道上有一个水槽 . K1 请在下面找到配置文件: # Name the components on this agent a1.sources = r1 a1.sources = r2 a1.sinks = k1 a1.channels = c1 a1.so...

热门问题