Java 学习之路

2 votes

answers

views

Flink Kafka连接器 - 提交偏移量而不检查点

我对Flink Kafka Consumer（FlinkKafkaConsumer09）有疑问 . 我一直在使用这个版本的连接器：flink-connector-kafka-0.9_2.11-1.1.2（连接器版本是0.9，akka版本是2.11，flink版本是1.1.2）我在5分钟的翻滚窗口内收集来自kafka的通信数据 . 从我所看到的，窗口与系统时间对齐（例如窗口在12：45,12：50...

apache-kafka apache-flink
3 votes

answers

views

Flink没有给kafka提供补偿

我有一个flink流媒体作业，它正在从kafka读取数据并只记录它 . 我启用了检查点 . 我无法在 Kafka 中看到提交的偏移量，而是在低于误差 . 任何帮助都很受欢迎 . {$KAFKA_HOME/bin/kafka-consumer-groups.sh --new-consumer --bootstrap-server localhost:9092 --describe --group f...

java scala streaming apache-kafka apache-flink
0 votes

answers

views

如何从FlinkKafkaConsumer获取最新的消息偏移量？

我正在使用FlinkKafkaConsumer来使用来自kafka的数据？但我无法从收到的数据中得到最新的偏差 . 如何在flink中做到这一点？ . 有人能引导我吗？

apache-flink kafka-consumer-api
1 votes

answers

views

Flink - 查询Kafka主题以获取消费者群体的偏移量？

Question: How can I query a kafka topic for the offset of a specific consumer group inside of flink code? (And side question (will make a new question on here if I need to ). How, if possible, can I g...

java apache-kafka apache-flink
1 votes

answers

views

Flink Kafka连接器0.10.0事件时间澄清和ProcessFunction澄清

我'm struggling with an issue regarding event time of flink'是 Kafka 的消费者连接器 . 引用Flink doc 自Apache Kafka 0.10起，Kafka的消息可以携带时间戳，指示事件发生的时间（请参阅Apache Flink中的“事件时间”）或消息写入Kafka代理的时间 . 如果Flink中的时间特性设置为TimeCh...

apache-flink flink-streaming
0 votes

answers

views

在代码中访问Flink的系统指标到终端，而不是像JMX那样使用任何指标报告者

我使用JMX作为度量报告器来获取Flink指标，但有没有办法将其作为终端输出？我想为每个运营商绘制 numRecordsInPerSecond 进行性能分析，我该怎么办？我已经看到了累加器的一些例子，但它没有给我正确的见解我如何进行Flink的性能分析 . 我会在这里举个例子这是我的Flink程序的执行计划，我有多个问题，但我想问基本问题如何测量每个运算符的延迟，然后将其相加以计算复...

apache-flink flink-streaming flink-cep
1 votes

answers

views

动态调节fl fl Kafka 来源

我们正在使用多个kafka主题，但希望优先考虑其中一些（〜服务质量） . 根据我在网上发现的情况，我们的共识是不会限制运算符，而是限制源，更具体地说是反序列化器[1] . 我们如何在源中访问有关流环境状态的信息（即主题滞后于当前偏移的距离） . 目前，我们计划将整个设置转换为CoFlatMaps [2]并且具有针对所有主题发出当前偏移滞后的控制流 - 低优先级流运营商然后根据高优先级流的滞后休眠 ...

apache-flink flink-streaming flink-cep
0 votes

answers

views

Hpw在Jconsole JMX控制台上显示本地的JMX记者的Flink指标

我正在学习所有这些 . 请分享您的想法和帮助 . 我试图从JMX控制台看JMX报告器的flink指标 . 脚步：我有自制的Apache-flink，别名 fstart 和 fstop 用于启动/停止Flink . 基于[这个JMX记者链接] [https://ci.apache.org/projects/flink/flink-docs-release-1.4/monitoring/metri...

jboss yaml wildfly jmx apache-flink
2 votes

answers

views

Flink配置自定义jar报告器到yaml，并通过JMX控制台连接主机

我是学习者，需要帮助 . 我有一个实现Flink MetricsReporter interface的Java maven项目，作为我的自定义记者发送指标 . 在我当地的Flink，我能够：在本地flink-conf.yaml文件中添加Flink JMX reporter config . 从端口8789开始flink 使用JConsole（JMX控制台）连接到远程localhost...

yaml wildfly jmx apache-flink metrics
0 votes

answers

views

Flink-Kafka消费者有多个主题

我有一个Flink Kafka消费者，可以从多个kafka主题中读取（在我的情况下为3个） . kafka上每个主题有5个分区 . Flink默认创建了多少消费者 . 是吗：每个主题 5个消费者 . 即 . 在所有15个消费者中共有5个消费者 . kafka消息的消耗非常慢，因此我无法确定每个主题附加的消费者数量 .

java apache-kafka streaming apache-flink
106 votes

answers

views

Flink和Storm之间的主要区别是什么？

Flink已经compared to Spark，我认为这是错误的比较，因为它将窗口事件处理系统与微批处理进行比较;同样，将Flink与Samza进行比较对我来说没有多大意义 . 在这两种情况下，它都会比较实时与批量事件处理策略，即使是在Samza的情况下较小的"scale" . 但我想知道Flink与Storm的比较，它在概念上看起来与它更相似 . 我发现this（幻灯片＃4...

apache-storm apache-flink flink-streaming
5 votes

answers

views

如何在scala中使用flink fold函数

这是一个非常有效的尝试使用Flink折叠与scala匿名函数： val myFoldFunction = (x: Double, t:(Double,String,String)) => x + t._1 env.readFileStream(...). ... .groupBy(1) .fold(0.0, myFoldFunction : Function2[Double, (Double...

scala apache-flink
1 votes

answers

views

Flink与Scala IDE和SBT

我正在研究我的第一个Apache Flink wordcount示例 . 我的设置是Scala IDE（Eclipse）4.3.0，Scala 2.10.4，SBT版本0.13.8 . 对于调用env.fromElements，IDE抛出错误“无法扩展由先前版本的Scala编译的宏” val env = ExecutionEnvironment.getExecutionEnvironment va...

eclipse scala sbt scala-ide apache-flink
3 votes

answers

views

如何在Apache Flink中将Scala DataSet传递给Java类

我是Scala的新手 . 所以我想用Java处理Apache Flink的DataSet . 但我在Scala代码中有一个DataSet，我希望在Java类的方法中传递 . 例如：在Scala中： val dS: DataSet[Vector] = ... SampleJavaClass.sendDS(ds) 在SampleJavaClass.java中有一个像 sendDs(DataSet&l...

java scala apache-flink
4 votes

answers

views

如何在Apache Flink中获取分区程序？

我们正在尝试为Apache Flink创建一个扩展，它使用自定义分区 . 对于某些运营商，我们要检查/检索使用过的分区程序 . 不幸的是，我找不到在给定DataSet上执行此操作的任何可能性 . 我错过了什么或者是否有其他解决方法？我会从这样的事情开始： class MyPartitioner[..](..) extends Partitioner[..] {..} [..] val myP =...

scala partitioning apache-flink
1 votes

answers

views

具有窗口化的GroupByKey之后，Beam管道不会产生任何输出

我使用FlinkRunner在本地运行以下Beam管道代码 . PubsubIO用于从主题中读取消息 . 我有一个单独的线程，它定期（每30秒）向主题发布消息，并设置“ts”属性，稍后用于推导事件时间 . 自定义转换转换为KV对 - private static class PubSubMessageGrouper extends DoFn<PubsubMessage, KV<Str...

google-cloud-dataflow apache-flink apache-beam
1 votes

answers

views

Flink Streaming - 如何基于第一个（按事件时间戳）键控事件创建窗口

我正在使用Flink的DataStream API来处理带有翻滚窗口的键控流 . 简化问题如下：输入事件对象示例： {timestamp:1462363362000, user_id:1, country:US, mark:50} {timestamp:1462363361000, user_id:1, country:US, mark:40} {timestamp:1462363368000,...

apache-flink flink-streaming
0 votes

answers

views

TaskManager的Flink状态后端

我有一个Flink v1.2设置，1个JobManager，2个TaskManagers，每个都在自己的VM中 . 我将状态后端配置到文件系统，并在每个上述主机的情况下将其指向本地位置（state.backend.fs.checkpointdir：file：/// home / ubuntu / Prototype / flink / flink-checkpoints） . 我已将并行性设置为1...

apache-flink flink-streaming flink-cep
3 votes

answers

views

如何清理Flink流状态为非活动密钥？

我的目标是 Build 一个Flink流程序来保存最后的N ID，其中id是从事件中提取的 . 接收器是Cassandra存储器，因此可以随时获取id列表 . 重要的是Cassandra会在每次活动后立即更新 . 这可以通过 mapWithState 轻松实现（参见下面的代码） . 但是，此代码存在重要问题 . 国家由 userid 键入 . 有些用户可能会活动一段时间，然后再也不会 . 我担心的...

apache-flink flink-streaming
0 votes

answers

views

有序流的Flink保证

根据我对Flink的一点经验，我注意到即使我们有订单到达订单，他们应该在分区后到达，订单也会丢失 . 这在这里讨论：Ordering of Records in Stream 所以我有3个问题可以扩展上面提到的问题：在我不清楚keyBy函数之后订单丢失的原因 . 为什么会这样？有没有办法确保即使在分区后事件的顺序？如果我们不创建KeyedStreams，那么每个并行运算符保证事件...

apache-flink flink-streaming
2 votes

answers

views

Apache Flink：状态de /序列化的频率是多少？

Flink de / serialise运营商的频率是多少？每次获取/更新或基于检查点？州后端会有所作为吗？我怀疑，对于每个密钥具有不同密钥（数百万）和每秒数千个事件的密钥流，de /序列化可能是一个大问题 . 我对吗？

apache-flink flink-streaming
0 votes

answers

views

流负载均衡

我有两个流 . 一个是事件流，另一个是数据库更新流 . 我想用从DB更新流构建的信息来丰富事件流 . 事件流非常庞大，使用5个字段进行分区 . 这给了我很好的分配 . DB流不那么笨拙，并且使用两个字段进行分区 . 我目前正在使用两个公共字段连接两个流，并使用flapMap来丰富第一个流 . flatMap运算符使用ValueState来维护状态，该状态由两个公共字段自动键入 . 我发现事件流...

apache-flink
2 votes

answers

views

Apache Flink：如何并行执行但保持消息顺序？

关于flink的并行性，我有几个问题 . 这是我的设置：我有1个主节点和2个从属节点 . 在flink中，我创建了3个kafka消费者，每个消费者都使用不同的主题 .由于元素的顺序对我很重要，每个主题只有一个分区，我有flink设置来使用事件时间 . 然后我在每个数据流上运行以下管道（伪代码）： source .map(deserialize) .window .apply .map(seria...

parallel-processing apache-kafka apache-flink
1 votes

answers

views

Flink（1.3.2）向每个运营商播放一次记录

我有一个像这样的Executiongraph： {"nodes":[{"id":1,"type":"Source: AggregatedData","pact":"Data Source","contents":"Source: Aggregated...

java apache-flink
0 votes

answers

views

“广播状态”为Flink的CEP库的“动态模式”功能的实现解除阻碍是什么意思？

从Flink 1.5发布公告中，我们知道Flink现在支持“广播状态”，并且描述了“广播状态解锁Flink的CEP库的”动态模式“功能的实现 . ” 这是否意味着目前我们可以使用“广播状态”来实现没有Flink CEP的“动态模式”？另外我不知道在有或没有广播状态的Flink CEP实现“动态模式”时有什么区别？我将不胜感激如果有人可以用代码举例解释差异 . ============= Updat...

apache-flink flink-streaming flink-cep
0 votes

answers

views

Apache Flink，关键的两个数据流，具有相似的字段字符串值但不相同

我完全绝望了！我正在使用apache flink与java，我想知道是否有可能修改keyby方法，以便通过相似性而不是确切的名称来键入？我有两个不同的DataStreams，我正在做一个联合 . 在第一个流中，我想要KeyBy的字段的名称是“John Locke”，而在第二个Datastream中，字段值是“John L” . 我有一个算法，给我一些不同的字符串之间的分数 . 我的想法是：如果...

java apache-flink flink-streaming
0 votes

answers

views

Apache flink加入

在Apache flink中，我有2个Tuple8流<>说进出 . 事件元组的8个字段中的4个（元组4）充当关键字 . 我想执行两个流之间存在的记录的相关性，作为这一步，我使用join运算符连接2个流 . 根据语义，我应该得到包含内部连接记录的输出流 . 但是，我没有得到任何输出或匹配 . env的时序特性设置为事件时间戳，元组的第一个元素是时间戳，我提取并使用assign将其标记为...

apache-flink flink-streaming
1 votes

answers

views

具有链式keyBy的事件顺序调用相同的键

从this link我明白来自某些inDataStream的事件的顺序在以下结果outDataStream中按键保留： outDataStream = inDataStream.keyBy(...) .timeWindow(...) .reduce(...) 因此，例如，如果我们从inDataStream输入以下事件（我们在键上执行keyBy）：（1，key1），（2，key1...

apache-flink flink-streaming
1 votes

answers

views

Flink使用一次性一次性连接键加入流

我有一个关于在Flink加入两个流的问题 . 我使用两种不同的数据流，在某些时候我需要加入它们 . 每个数据流都标有唯一的id，用作这些流之间的连接点 . 没有窗口的概念，所以为了连接这两个数据流，我先做 . 连接（第二个）.keyBy（0,0） . 这似乎有效，因为我得到了正确的结果，但我的担忧是长期的 . 我没有明确地保持连接的运算符（coFlatMap）上的任何状态，但是如果让我们说一个流（...

apache-flink flink-streaming
0 votes

answers

views

窗口操作员行为澄清后的Apache Flink KeyedStream

我要求澄清Apache Flink（1.6.0）在通过窗口发送事件后如何处理来自KeyedStreams的事件，并且已经应用了一些运算符（例如reduce（）或process（）） . 假设单个节点集群在执行了键控窗口流上的运算符之后，剩下的只有1个DataStream或者恰好是k个DataStream（其中k是键的唯一值的数量）？为了澄清，考虑需要从某些来源读取事件，通过某些k键，将键控事件发...

apache-flink partitioning flink-streaming sliding-window topography

热门问题