Java 学习之路

6 votes

answers

views

Flume不写入HDFS，除非被杀死

我按照link设置了TwitterSource和HDFS接收器 . 用于启动代理的命令： bin/flume-ng agent -n TwitterAgent -c conf -f conf/flume-conf.properties -Dflume.root.logger=DEBUG,console 我成功地做到了这一点，但现在有一个问题 . 在停止水槽剂之前，输出不会被写入 . 一旦我杀死了...

hadoop hdfs flume
1 votes

answers

views

如何使用flume和现有模式文件在hdfs上存储数据

我有来自源的json数据，我想使用avro格式的水槽将其转储到hdfs，我已经有了avsc文件，我使用以下配置为接收器，但那不是选择我的avsc文件，而是创建自己的架构： agent1.sinks.sink1.type = hdfs agent1.sinks.sink1.serializer = org.apache.flume.serialization.AvroEventSerializer...

hdfs avro flume flume-ng
7 votes

answers

views

在接收器发生故障后，如何强制Flume-NG处理积压的事件？

我正在尝试设置Flume-NG从一堆服务器（主要运行Tomcat实例和Apache Httpd）收集各种日志，并将它们转储到5节点Hadoop集群上的HDFS中 . 设置如下所示：每个应用程序服务器将相关日志转换为Exec Sources之一（每个日志类型一个：java，httpd，syslog），它们通过FileChannel传送到Avro接收器 . 在每台服务器上，不同的源，通道和接收器由...

hadoop hdfs flume
2 votes

answers

views

Flume没有将日志写入Hdfs

所以我配置水槽把我的apache2访问日志写入hdfs ...并且我想通过水槽的日志是所有的配置是正确的但我不知道为什么它仍然没有写入hdfs . 所以这是我的flume配置文件 #agent and component of agent search.sources = so search.sinks = si search.channels = sc # Configure a channe...

hadoop hdfs flume flume-ng
1 votes

answers

views

附加如何在hdfs中起作用？新创建的文件实例放在哪里？

我是Hadoop的新手！通过网络搜索和浏览hadoop指南后，显然hdfs不允许我们编辑文件但是将一些数据附加到现有文件，它将临时创建一个新实例并将新数据附加到它 . 话虽如此， 1.想知道新文件或temp是在同一个块还是在不同的块中创建的？ 2.如果文件超过以前分配的块大小，会发生什么？任何帮助将不胜感激！

hadoop hdfs bigdata
5 votes

answers

views

使用Flume将CSV文件写入HDFS

我正在使用Flume从我的本地文件系统向HDFS写入许多CSV文件 . 我想知道什么是Flume HDFS接收器的最佳配置，这样本地系统上的每个文件都将完全以HDFS格式复制为CSV . 我希望Flume处理的每个CSV文件都是单个事件，刷新并写为单个文件 . 尽可能地，我希望文件完全相同，没有 Headers 内容等 . 我需要将这些值放在哪里来模拟我想要的行为？ hdfs.batchSize ...

hdfs flume
1 votes

answers

views

Pyspark错误读取文件 . Flume HDFS接收器使用user = flume和权限644导入文件

我正在使用Cloudera Quickstart VM 5.12 我有一个Flume代理将来自spooldir源的CSV文件移动到HDFS接收器中 . 操作正常，但导入的文件有： User=flume Group=cloudera Permissions=-rw-r--r-- 当我使用Pyspark并获得时，问题就开始了： PriviledgedActionException as:clou...

hdfs flume cloudera-cdh cloudera-quickstart-vm
0 votes

answers

views

MapReduce作业不处理Flume存储的所有事件

我说有12个事件发送到Flume，将它们存储到HDFS接收器中 . 由Flume创建的文件具有.tmp扩展名，因为它配置为根据文件大小滚动文件 . 当我执行 hdfs dfs -cat /some/path/file-stored-by-flume.1526623078683.tmp 时，打印出所有10个事件 . 不幸的是，在该文件上安排MapReduce作业只会导致映射器消耗的前几行 . 任何想...

hadoop hdfs flume
0 votes

answers

views

如何在MapReduce程序中将文件附加到HDFS上

我正在使用 CDH-5.14.2-1.cdh5.14.2.p0.3 . 我试图将一些String附加到HDFS上的现有文件中 . 然后我写了如下： FileSystem fs = FileSystem.get(conf); String str = "testtest"; FSDataOutputStream out = fs.append(new Path("tm...

java hadoop hdfs
2 votes

answers

views

无法在flume-ng中创建类型为HDFS的接收器

我有一个将日志写入HDFS的flume-ng .我在一个节点中创建了一个代理 .但它没有运行 .有我的配置 . #example2.conf：单节点Flume配置＃为此代理命名组件agent1.sources = source1agent1.sinks = sink1agent1.channels = channel1 ＃描述/配置source1agent1.sources.source1.t...

hdfs flume
0 votes

answers

views

水槽总是在监视器日志中使用agent-shutdown-hook自动停止

我在Linux Ubuntu中运行了一个Flume，它运行得更好，但是在大约一天之后它总是停止运行，以下是水槽配置： nginx.channels=ch-spooling ch-tail nginx.sources=spooling-source tail-source nginx.sinks=hdfs-spooling kafka-tail nginx.channels...

hdfs apache-kafka flume
0 votes

answers

views

Flume ng / Avro源，内存通道和HDFS接收器 - 太多小文件

我面临一个奇怪的问题 . 我希望将大量信息从水槽汇总到HDFS . 我应用推荐配置以避免太多小文件，但它不起作用 . 这是我的配置文件 . # single-node Flume configuration # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/c...

hadoop hdfs flume avro
0 votes

answers

views

Apache Flume HDFS接收器文件写入有哪些保证？

如果Flume代理在HDFS文件写入中间被杀（比如使用Avro格式），有人可以了解一下会发生什么吗？该文件是否会损坏，所有事件都会丢失？据我所知，Flume数据链的不同元素之间存在交易（source-> channel-> sink） . 但我相信HDFS文件可能会在连续的channel-> sink事务（如.tmp）之间保持打开状态 . 因此，如果100个事件的一个事务成功（...

apache hadoop hdfs flume
0 votes

answers

views

当更改到新的一天的目录后，Flume在HDFS中留下.tmp文件

我正在使用Flume 1.7.0和HDFS接收器 . 我将Flume配置为将数据放入HDFS的日期目录中，以便在新的一天到来时自动更改目录 . 问题是我设置了文件大小（240MB），但是当目录发生变化时，水槽每天都会留下.tmp文件 . 在没有关闭未完成的文件（小于240MB）的情况下，它似乎改变了新的一天的目录 . 例如 . 如果我开始3个水槽剂 . 然后当水槽代理改变到新目录20180411时...

hdfs flume flume-ng
0 votes

answers

views

在hdfs kafka，flume中的不同目录中登陆文件

我想将csv文件从一个服务器（Unix服务器A）发送到hdfs目录 . 基于哪些csv文件我想将它们放在hdfs中的不同目录中 . 我有一个11个csv文件，将由kafka 生产环境者在unix服务器A上发送给kafka . csv文件的第一个元素将包含一个键 . 我想采取第一个元素，并使其成为kafka消息的关键 . 另外，我想将数据的值作为消息发送到kafka . 当它到达kafka集群时...

key hdfs apache-kafka spark-streaming flume
1 votes

answers

views

Flume - HDFS Sink batchSize无法正常工作

我有一个Kafka源，内存通道和HDFS接收器组合 . 我想要做的是从Kafka Source堆叠4条消息，然后在一次交易中将它们放入HDFS . agent.sinks.HDFS.hdfs.batchSize = 4 agent.sinks.HDFS.hdfs.path = hdfs://127.0.0.1:54310/flume/events/%y-%m-%d/%H%M/%S agent.si...

apache-kafka hdfs flume
0 votes

answers

views

Flafka：Kafka到Flume代理HDFS没有摄取

我正在创建一个Flume代理，它从Kafka主题中提取数据，该通道是Kafka主题，而接收器是HDFS . 代理应该从kafka主题获取take数据并将其放在hdfs中的每日文件夹中 . 我正在进行cloudera发行 . 它目前没有摄取数据 . 没有给出错误消息，数据正在成功填充主题 . sandbox.sources = kafka sandbox.channels= channel sand...

hadoop hdfs apache-kafka flume kafka-consumer-api
5 votes

answers

views

Flume：目录到Avro - > Avro到HDFS - 转移后无效avro

我有用户编写AVRO文件，我想使用Flume使用Flume将所有这些文件移动到HDFS中 . 所以我以后可以使用Hive或Pig来查询/分析数据 . 在客户端我安装了水槽，并有一个SpoolDir源和AVRO接收器像这样： a1.sources = src1 a1.sinks = sink1 a1.channels = c1 a1.channels.c1.type = memory a1.so...

hadoop hdfs flume avro
0 votes

answers

views

需要帮助调试kafka源到hdfs下沉与水槽

我正在尝试从kafka发送数据（最终我们将使用在不同实例上运行的kafka）到hdfs . 我认为将数据输入hdfs需要使用flume或某种摄取协议 . 所以我们正在使用cloudera的水槽服务和hdfs . 这是我的flume-conf文件 . 另一个conf文件为空 tier1.sources=source1 tier1.channels=channel1 tier1.sinks=sink1...

hadoop hdfs apache-kafka flume flume-ng
0 votes

answers

views

发布数据损坏时跳过kafka中的接收步骤

At the java server side 在一些进程之后，我通过restful webservice将日志数据（json格式）从服务器发布到kafka . At the hdfs side 我的水槽类型是avro . 因此，为了解析json（源）到avro（目标）我使用morphline和avro架构 . 如果发布的数据不适合morphline或avro架构，通常我会得到以下错误，引起：...

hadoop hdfs apache-kafka avro flume
0 votes

answers

views

Flume不会从kafka主题写入HDFS

我试图从Kafka主题读取并将其存储到HDFS作为Flume接收器并且输入数据是JSON，以下是我的配置文件， # components name a1.sources = source1 a1.channels = channel1 a1.sinks = sink1 a1.sources.source1.type = org.apache.flume.source.kafka.KafkaSo...

hadoop apache-kafka hdfs flume flume-ng
1 votes

answers

views

Flume HDFS Sink在HDFS上生成大量小文件

我有一个玩具设置使用flume向hdfs发送log4j消息 . 我无法配置hdfs接收器以避免许多小文件 . 我以为我可以配置hdfs接收器来创建一个新文件，每次文件大小达到10mb，但它仍然创建大约1.5KB的文件 . 这是我目前的水槽配置： a1.sources=o1 a1.sinks=i1 a1.channels=c1 #source configuration a1.sources.o1...

hdfs flume flume-ng
4 votes

answers

views

Flume用例：从HTTP读取并通过Kafka推送到HDFS

我是Flume的新手，想在下面的场景中使用Flume . 我们的系统接收事件作为HTTP POST，我们需要将它们的副本存储在Kafka（用于进一步处理）和HDFS中的另一个副本（作为永久存储） . 我们可以将Flume源配置为HTTP，将通道配置为KAFKA，下沉为HDFS以满足我们的要求 . 这个解决方案有效吗？

hdfs apache-kafka flume flume-ng
0 votes

answers

views

从Twitter到HDFS命令的流数据无法正常工作

我想将数据从tweeter流式传输到hdfs，我使用了这个命令：./ bin/flume-ng agent -n TwitterAgent -c conf -f /usr/lib/apache-flume-1.4.0-bin/conf/flume .conf文件我无法得到我期待的结果 . 没有数据流 . 谁拥有linus命令将数据从tweeter传输到hdfs？

hdfs flume
0 votes

answers

views

无法将数据从水槽输入hdfs hadoop以获取日志

我正在使用以下配置从日志文件中将数据推送到hdfs . agent.channels.memory-channel.type = memory agent.channels.memory-channel.capacity=5000 agent.sources.tail-source.type = exec agent.sources.tail-source.command = tail -F /h...

apache hadoop hdfs flume
5 votes

answers

views

Flume HDFS接收器：从文件名中删除时间戳

我为我的应用程序配置了flume代理，其中source是Spooldir，sink是HDFS 我能够在hdfs中收集文件 . 代理配置是： agent.sources = src-1 agent.channels = c1 agent.sinks = k1 agent.sources.src-1.type = spooldir agent.sources.src-1.channels = c1 ...

hdfs flume flume-ng
1 votes

answers

views

flume load csv文件优于hdfs sink

我已将Flume源配置为Spooldir类型 . 我有很多 CSV files, .xl3 and .xls ，我希望我的Flume代理将所有文件从spooldir加载到HDFS接收器 . 但水槽代理返回异常这是我对水槽来源的配置： agent.sources.s1.type = spooldir agent.sources.s1.spoolDir = /my-directory agent.s...

excel csv hadoop hdfs flume
0 votes

answers

views

Hive Partitioned / bucketed table的实际结构是什么？

我无法在虚拟框中配置多数据节点集群不要认为复制因子将其视为1 . 假设我有一个10GB的文件，并且列城市有2个不同的值，我有2个数据节点 . 想要按城市划分数据 .此外，我将在每个分区的2个桶中存储邮政编码 . 我的问题是每个数据节点中是否存在每个分区，或者每个节点只有不同的分区 . 我的理解是每个节点都将拥有所有分区，但在某些节点中，由于数据文件中的值不足，分区可能不存在 . 每个数据节点中的...

hadoop hive hdfs
7 votes

answers

views

蜂巢中分区和分区的结构差异

我创建了两个表： 1）一个用于分区的分区2）只有 table 我知道hive中分区和分区的概念 . 但我有点困惑因为我读过 'partition creates directory and bucketing creates files' . 我同意第一部分，因为我可以在HDFS Hive Warehouse中看到，但我无法在HDFS中看到 ONLY bucketing表的任何文件，除了我加载...

hadoop hive hdfs cloudera hortonworks-data-platform
3 votes

answers

views

如何在Spark 1.6中读取Hive HDFS？

我在HDFS的Hive中有几个表，如何从spark中读入数据帧？ HiveContext如何知道我的蜂巢仓库在哪里？我目前的代码，由于某种原因抛出内存错误，这些表很小，最多30k行，3-5列 . SparkConf sparkConf = new SparkConf().setAppName("Hive Test").setMaster("local[*]&quot...

java apache-spark hive hdfs

热门问题