首页 文章
  • 2 votes
     answers
     views

    Flink Kafka连接器 - 提交偏移量而不检查点

    我对Flink Kafka Consumer(FlinkKafkaConsumer09)有疑问 . 我一直在使用这个版本的连接器:flink-connector-kafka-0.9_2.11-1.1.2(连接器版本是0.9,akka版本是2.11,flink版本是1.1.2) 我在5分钟的翻滚窗口内收集来自kafka的通信数据 . 从我所看到的,窗口与系统时间对齐(例如窗口在12:45,12:50...
  • 3 votes
     answers
     views

    Flink没有给kafka提供补偿

    我有一个flink流媒体作业,它正在从kafka读取数据并只记录它 . 我启用了检查点 . 我无法在 Kafka 中看到提交的偏移量,而是在低于误差 . 任何帮助都很受欢迎 . {$KAFKA_HOME/bin/kafka-consumer-groups.sh --new-consumer --bootstrap-server localhost:9092 --describe --group f...
  • 0 votes
     answers
     views

    如何从FlinkKafkaConsumer获取最新的消息偏移量?

    我正在使用FlinkKafkaConsumer来使用来自kafka的数据?但我无法从收到的数据中得到最新的偏差 . 如何在flink中做到这一点? . 有人能引导我吗?
  • 1 votes
     answers
     views

    Flink - 查询Kafka主题以获取消费者群体的偏移量?

    Question: How can I query a kafka topic for the offset of a specific consumer group inside of flink code? (And side question (will make a new question on here if I need to ). How, if possible, can I g...
  • 1 votes
     answers
     views

    Flink Kafka连接器0.10.0事件时间澄清和ProcessFunction澄清

    我'm struggling with an issue regarding event time of flink'是 Kafka 的消费者连接器 . 引用Flink doc 自Apache Kafka 0.10起,Kafka的消息可以携带时间戳,指示事件发生的时间(请参阅Apache Flink中的“事件时间”)或消息写入Kafka代理的时间 . 如果Flink中的时间特性设置为TimeCh...
  • 0 votes
     answers
     views

    在代码中访问Flink的系统指标到终端,而不是像JMX那样使用任何指标报告者

    我使用JMX作为度量报告器来获取Flink指标,但有没有办法将其作为终端输出? 我想为每个运营商绘制 numRecordsInPerSecond 进行性能分析,我该怎么办? 我已经看到了累加器的一些例子,但它没有给我正确的见解我如何进行Flink的性能分析 . 我会在这里举个例子 这是我的Flink程序的执行计划,我有多个问题,但我想问基本问题 如何测量每个运算符的延迟,然后将其相加以计算复...
  • 1 votes
     answers
     views

    动态调节fl fl Kafka 来源

    我们正在使用多个kafka主题,但希望优先考虑其中一些(〜服务质量) . 根据我在网上发现的情况,我们的共识是不会限制运算符,而是限制源,更具体地说是反序列化器[1] . 我们如何在源中访问有关流环境状态的信息(即主题滞后于当前偏移的距离) . 目前,我们计划将整个设置转换为CoFlatMaps [2]并且具有针对所有主题发出当前偏移滞后的控制流 - 低优先级流运营商然后根据高优先级流的滞后休眠 ...
  • 0 votes
     answers
     views

    Hpw在Jconsole JMX控制台上显示本地的JMX记者的Flink指标

    我正在学习所有这些 . 请分享您的想法和帮助 . 我试图从JMX控制台看JMX报告器的flink指标 . 脚步: 我有自制的Apache-flink,别名 fstart 和 fstop 用于启动/停止Flink . 基于[这个JMX记者链接] [https://ci.apache.org/projects/flink/flink-docs-release-1.4/monitoring/metri...
  • 2 votes
     answers
     views

    Flink配置自定义jar报告器到yaml,并通过JMX控制台连接主机

    我是学习者,需要帮助 . 我有一个实现Flink MetricsReporter interface的Java maven项目,作为我的自定义记者发送指标 . 在我当地的Flink,我能够: 在本地flink-conf.yaml文件中添加Flink JMX reporter config . 从端口8789开始flink 使用JConsole(JMX控制台)连接到远程localhost...
  • 0 votes
     answers
     views

    Flink-Kafka消费者有多个主题

    我有一个Flink Kafka消费者,可以从多个kafka主题中读取(在我的情况下为3个) . kafka上每个主题有5个分区 . Flink默认创建了多少消费者 . 是吗: 每个主题 5个消费者 . 即 . 在所有15个消费者中 共有5个消费者 . kafka消息的消耗非常慢,因此我无法确定每个主题附加的消费者数量 .
  • 106 votes
     answers
     views

    Flink和Storm之间的主要区别是什么?

    Flink已经compared to Spark,我认为这是错误的比较,因为它将窗口事件处理系统与微批处理进行比较;同样,将Flink与Samza进行比较对我来说没有多大意义 . 在这两种情况下,它都会比较实时与批量事件处理策略,即使是在Samza的情况下较小的"scale" . 但我想知道Flink与Storm的比较,它在概念上看起来与它更相似 . 我发现this(幻灯片#4...
  • 5 votes
     answers
     views

    如何在scala中使用flink fold函数

    这是一个非常有效的尝试使用Flink折叠与scala匿名函数: val myFoldFunction = (x: Double, t:(Double,String,String)) => x + t._1 env.readFileStream(...). ... .groupBy(1) .fold(0.0, myFoldFunction : Function2[Double, (Double...
  • 1 votes
     answers
     views

    Flink与Scala IDE和SBT

    我正在研究我的第一个Apache Flink wordcount示例 . 我的设置是Scala IDE(Eclipse)4.3.0,Scala 2.10.4,SBT版本0.13.8 . 对于调用env.fromElements,IDE抛出错误“无法扩展由先前版本的Scala编译的宏” val env = ExecutionEnvironment.getExecutionEnvironment va...
  • 3 votes
     answers
     views

    如何在Apache Flink中将Scala DataSet传递给Java类

    我是Scala的新手 . 所以我想用Java处理Apache Flink的DataSet . 但我在Scala代码中有一个DataSet,我希望在Java类的方法中传递 . 例如:在Scala中: val dS: DataSet[Vector] = ... SampleJavaClass.sendDS(ds) 在SampleJavaClass.java中有一个像 sendDs(DataSet&l...
  • 4 votes
     answers
     views

    如何在Apache Flink中获取分区程序?

    我们正在尝试为Apache Flink创建一个扩展,它使用自定义分区 . 对于某些运营商,我们要检查/检索使用过的分区程序 . 不幸的是,我找不到在给定DataSet上执行此操作的任何可能性 . 我错过了什么或者是否有其他解决方法? 我会从这样的事情开始: class MyPartitioner[..](..) extends Partitioner[..] {..} [..] val myP =...
  • 1 votes
     answers
     views

    具有窗口化的GroupByKey之后,Beam管道不会产生任何输出

    我使用FlinkRunner在本地运行以下Beam管道代码 . PubsubIO用于从主题中读取消息 . 我有一个单独的线程,它定期(每30秒)向主题发布消息,并设置“ts”属性,稍后用于推导事件时间 . 自定义转换转换为KV对 - private static class PubSubMessageGrouper extends DoFn<PubsubMessage, KV<Str...
  • 1 votes
     answers
     views

    Flink Streaming - 如何基于第一个(按事件时间戳)键控事件创建窗口

    我正在使用Flink的DataStream API来处理带有翻滚窗口的键控流 . 简化问题如下: 输入事件对象示例: {timestamp:1462363362000, user_id:1, country:US, mark:50} {timestamp:1462363361000, user_id:1, country:US, mark:40} {timestamp:1462363368000,...
  • 0 votes
     answers
     views

    TaskManager的Flink状态后端

    我有一个Flink v1.2设置,1个JobManager,2个TaskManagers,每个都在自己的VM中 . 我将状态后端配置到文件系统,并在每个上述主机的情况下将其指向本地位置(state.backend.fs.checkpointdir:file:/// home / ubuntu / Prototype / flink / flink-checkpoints) . 我已将并行性设置为1...
  • 3 votes
     answers
     views

    如何清理Flink流状态为非活动密钥?

    我的目标是 Build 一个Flink流程序来保存最后的N ID,其中id是从事件中提取的 . 接收器是Cassandra存储器,因此可以随时获取id列表 . 重要的是Cassandra会在每次活动后立即更新 . 这可以通过 mapWithState 轻松实现(参见下面的代码) . 但是,此代码存在重要问题 . 国家由 userid 键入 . 有些用户可能会活动一段时间,然后再也不会 . 我担心的...
  • 0 votes
     answers
     views

    有序流的Flink保证

    根据我对Flink的一点经验,我注意到即使我们有订单到达订单,他们应该在分区后到达,订单也会丢失 . 这在这里讨论:Ordering of Records in Stream 所以我有3个问题可以扩展上面提到的问题: 在我不清楚keyBy函数之后订单丢失的原因 . 为什么会这样? 有没有办法确保即使在分区后事件的顺序? 如果我们不创建KeyedStreams,那么每个并行运算符保证事件...
  • 2 votes
     answers
     views

    Apache Flink:状态de /序列化的频率是多少?

    Flink de / serialise运营商的频率是多少?每次获取/更新或基于检查点?州后端会有所作为吗? 我怀疑,对于每个密钥具有不同密钥(数百万)和每秒数千个事件的密钥流,de /序列化可能是一个大问题 . 我对吗?
  • 0 votes
     answers
     views

    流负载均衡

    我有两个流 . 一个是事件流,另一个是数据库更新流 . 我想用从DB更新流构建的信息来丰富事件流 . 事件流非常庞大,使用5个字段进行分区 . 这给了我很好的分配 . DB流不那么笨拙,并且使用两个字段进行分区 . 我目前正在使用两个公共字段连接两个流,并使用flapMap来丰富第一个流 . flatMap运算符使用ValueState来维护状态,该状态由两个公共字段自动键入 . 我发现事件流...
  • 2 votes
     answers
     views

    Apache Flink:如何并行执行但保持消息顺序?

    关于flink的并行性,我有几个问题 . 这是我的设置: 我有1个主节点和2个从属节点 . 在flink中,我创建了3个kafka消费者,每个消费者都使用不同的主题 .由于元素的顺序对我很重要,每个主题只有一个分区,我有flink设置来使用事件时间 . 然后我在每个数据流上运行以下管道(伪代码): source .map(deserialize) .window .apply .map(seria...
  • 1 votes
     answers
     views

    Flink(1.3.2)向每个运营商播放一次记录

    我有一个像这样的Executiongraph: {"nodes":[{"id":1,"type":"Source: AggregatedData","pact":"Data Source","contents":"Source: Aggregated...
  • 0 votes
     answers
     views

    “广播状态”为Flink的CEP库的“动态模式”功能的实现解除阻碍是什么意思?

    从Flink 1.5发布公告中,我们知道Flink现在支持“广播状态”,并且描述了“广播状态解锁Flink的CEP库的”动态模式“功能的实现 . ” 这是否意味着目前我们可以使用“广播状态”来实现没有Flink CEP的“动态模式”?另外我不知道在有或没有广播状态的Flink CEP实现“动态模式”时有什么区别?我将不胜感激如果有人可以用代码举例解释差异 . ============= Updat...
  • 0 votes
     answers
     views

    Apache Flink,关键的两个数据流,具有相似的字段字符串值但不相同

    我完全绝望了! 我正在使用apache flink与java,我想知道是否有可能修改keyby方法,以便通过相似性而不是确切的名称来键入? 我有两个不同的DataStreams,我正在做一个联合 . 在第一个流中,我想要KeyBy的字段的名称是“John Locke”,而在第二个Datastream中,字段值是“John L” . 我有一个算法,给我一些不同的字符串之间的分数 . 我的想法是:如果...
  • 0 votes
     answers
     views

    Apache flink加入

    在Apache flink中,我有2个Tuple8流<>说进出 . 事件元组的8个字段中的4个(元组4)充当关键字 . 我想执行两个流之间存在的记录的相关性,作为这一步,我使用join运算符连接2个流 . 根据语义,我应该得到包含内部连接记录的输出流 . 但是,我没有得到任何输出或匹配 . env的时序特性设置为事件时间戳,元组的第一个元素是时间戳,我提取并使用assign将其标记为...
  • 1 votes
     answers
     views

    具有链式keyBy的事件顺序调用相同的键

    从this link我明白来自某些inDataStream的事件的顺序在以下结果outDataStream中按键保留: outDataStream = inDataStream.keyBy(...) .timeWindow(...) .reduce(...) 因此,例如,如果我们从inDataStream输入以下事件(我们在键上执行keyBy): (1,key1),(2,key1...
  • 1 votes
     answers
     views

    Flink使用一次性一次性连接键加入流

    我有一个关于在Flink加入两个流的问题 . 我使用两种不同的数据流,在某些时候我需要加入它们 . 每个数据流都标有唯一的id,用作这些流之间的连接点 . 没有窗口的概念,所以为了连接这两个数据流,我先做 . 连接(第二个).keyBy(0,0) . 这似乎有效,因为我得到了正确的结果,但我的担忧是长期的 . 我没有明确地保持连接的运算符(coFlatMap)上的任何状态,但是如果让我们说一个流(...
  • 0 votes
     answers
     views

    窗口操作员行为澄清后的Apache Flink KeyedStream

    我要求澄清Apache Flink(1.6.0)在通过窗口发送事件后如何处理来自KeyedStreams的事件,并且已经应用了一些运算符(例如reduce()或process()) . 假设单个节点集群在执行了键控窗口流上的运算符之后,剩下的只有1个DataStream或者恰好是k个DataStream(其中k是键的唯一值的数量)? 为了澄清,考虑需要从某些来源读取事件,通过某些k键,将键控事件发...

热门问题