首页 文章
  • 0 votes
     answers
     views

    Apache Flink - 事件时间窗口

    我想在Apache flink中创建键控窗口,以便每个键的窗口在键的第一个事件到达后n分钟执行 . 是否可以使用事件时间特性来完成(因为处理时间取决于系统时钟,并且不确定第一个事件何时到达) . 如果可能的话,请向事件说明事件时间和水印的分配,并解释如何在n分钟后调用过程窗口功能 . 下面是代码的一部分,可以让您了解我目前正在做什么: //Make keyed events so as to st...
  • 0 votes
     answers
     views

    使用PySpark将Kafka Stream发送到Spark Stream

    我们有使用Avro的Kafka流 . 我需要使用python将它连接到Spark Stream . 我用下面的代码来做到这一点: kvs = KafkaUtils.createDirectStream(ssc, topic, {'bootstrap.servers': brokers}, valueDecoder=decoder) 然后我得到了轰鸣声错误 . 调用o44.awaitTermin...
  • 2 votes
     answers
     views

    Kafka Streams在处理时间窗口内排序

    我想知道是否有任何方法可以使用Kafka Streams DSL或Processor API对窗口内的记录进行排序 . 想象下面的情况作为一个例子(任意一个,但类似于我需要的): 有一些事件的Kafka主题,比方说用户点击 . 假设主题有10个分区 . 消息按密钥分区,但每个密钥都是唯一的,因此它是一种随机分区 . 每条记录都包含一个用户ID,稍后将用于对流进行重新分区 . 我们使用流,并...
  • 29 votes
     answers
     views

    Akka Stream Kafka vs Kafka Streams

    我目前正在与Akka Stream Kafka合作与kafka互动,我很惊讶与Kafka Streams有什么不同 . 我知道基于Akka的方法实现了反应性规范并处理了kafka流似乎缺乏的背压和功能 . 使用kafka流比akka溪流kafka有什么好处?
  • 0 votes
     answers
     views

    Kafka Streams:在收到新消息时重置窗口计时器

    我的Kafka主题包含带有id字段的消息 . 我希望使用时间窗口按该id聚合消息,当副本进入时,应该移动该时间窗口 . 例: 我用 id = 94 检索了一条消息 . 我想等待 id = 94 的下一条消息30秒,如果它赢了't appear, I' m将开始处理 . 但是如果在这30秒内收到带有 id = 94 的新消息,我想重置定时器并等待下一个 id = 94 30秒 . 是否可以使用Ka...
  • -1 votes
     answers
     views

    Kafka Streams:提交不会发生

    我是Kafka Streams的新手,我试图在超时的情况下试验kafka流的行为 . 这是我使用Processor API测试的场景: 我的kafka流应用程序使用kafka主题(String key,String message)并写入kafka主题(String key,String message) 我已将Consumer Config参数max.poll.interval.ms设置...
  • 1 votes
     answers
     views

    Kafka:添加批量旧数据

    使用Kafka进行基于时间的事件,使用窗口对Kafka Streams中的事件(会话)进行分组 . 我们应该如何处理来自不同来源的一组数据的到来,这些数据由旧数据组成? 比如说,您正在为客户进行网站分析 . 您从事件主题中的客户端接收事件数据,您可以在其中接收所有事件类型 . 由于某种原因,您没有从客户端收到订单(购买)数据,您只收到了构建会话的综合浏览量数据 . 一段时间之后,您会收到一批基于时...
  • 0 votes
     answers
     views

    暗淡的kafka stream groupBy和window

    我无法理解groupBy / groupById的概念和kafka流中的窗口化 . 我的目标是在一段时间(例如5秒)内聚合流数据 . 我的流媒体数据类似于: {"value":0,"time":1533875665509} {"value":10,"time":1533875667511} {"value&q...
  • 1 votes
     answers
     views

    在Flink的运营商之间共享状态

    我想知道Flink是否有可能在运营商之间分享状态 . 比如说,我在操作员上按键分区,我需要在分区 C 内部分区 A (由于任何原因)(图1.a),或者我需要在下游运算符中运算符 C 的状态 F (图1.b) . 我知道有可能 broadcast 记录到所有分区 . 因此,如果在记录中包含运算符的内部状态,则可以与下游运算符共享内部状态 .但是,这可能是一个昂贵的操作,而不是简单地让 op1 特别...
  • 0 votes
     answers
     views

    Hadoop可以做流式传输吗?

    有人建议Hadoop做流媒体,并引用Flume和Kafka作为例子 . 虽然我知道他们可能有流媒体功能,但我想知道他们是否可以像Storm / Spark / Flink这样的流处理技术被认为是同一个联盟 . Kafka是一个“发布 - 订阅模型消息传递系统”,Flume是一种数据提取工具 . 即使他们与hadoop互动/整合,他们在技术上是'hadoop'本身的一部分吗? PS:据我所知,有一...

热门问题