首页 文章
  • 3 votes
     answers
     views

    Flink窗口和状态维护

    我正在研究apache flink的数据流,我几乎没有问题 . 任何帮助是极大的赞赏 . 谢谢 . 1)创建翻滚窗口是否有任何限制 . 例如,如果我想为每个用户ID创建一个翻滚窗口,持续2秒,让我们说如果我有超过1000万用户ID则会出现问题 . (我正在使用keyBy用户ID,然后创建一个timeWindow 2秒)?如何在flink内部维护这些窗口? 2)我查看了循环分区的重新 balanc...
  • 2 votes
     answers
     views

    Flink中操作员Parallelism的一些难题

    我刚刚得到了并行性的示例,并提出了一些相关问题: setParallelism(5)将Parallelism 5设置为flatMap和sum的和? 我们是否可以将不同的Parallelism设置为不同的运算符,例如flatMap和sum?例如将Parallelism 5设置为sum,将10设置为flatMap . 根据我的理解,keyBy是根据不同的密钥将DataStream分区为逻辑...
  • 1 votes
     answers
     views

    在Flink流中使用静态DataSet丰富DataStream

    我正在编写一个Flink流程序,我需要使用一些静态数据集(信息库,IB)来丰富用户事件的DataStream . 例如假设我们有一个静态的买家数据集,我们有一个传入的事件点击流,对于每个我们想要添加一个布尔标志的事件,表明该事件的实施者是否是买家 . 实现此目标的理想方法是按用户ID对传入流进行分区,让用户ID再次对DataSet中的买方设置可用,然后在流中查找此DataSet中的每个事件 . 由...
  • 0 votes
     answers
     views

    Apache Flink:如何为键控的CoFlatMapFunction分区事件?

    这是关于连接键控流的一个非常基本的问题 . 如果我有两个流相关事件共享相同的逻辑密钥,并且这些流正在连接(使用密钥逻辑连接)并且这都运行并行> 1,那么Flink如何保证来自不同流的两个事件具有相同的逻辑键最终在同一个并行运算符实例中? 以下是使用 ConnectedStream 和 CoFlatMapFunction 按患者姓名查询医院's patient streams - temper...
  • 1 votes
     answers
     views

    在任务管理器之间均匀分配Flink运算符

    我正在15台机器的裸机集群上为Flink流应用程序进行原型设计 . 我正在使用带有90个任务槽(15x6)的纱线模式 . 该应用程序从单个Kafka主题中读取数据 . Kafka主题有15个分区,因此我将源运算符的并行性设置为15 . 但是,我发现Flink在某些情况下会将2-4个消费者任务实例分配给同一个任务管理器 . 这会导致某些节点成为网络绑定(Kafka主题提供大量数据,而计算机只有1G...
  • 1 votes
     answers
     views

    Flink Kafka连接器0.10.0事件时间澄清和ProcessFunction澄清

    我'm struggling with an issue regarding event time of flink'是 Kafka 的消费者连接器 . 引用Flink doc 自Apache Kafka 0.10起,Kafka的消息可以携带时间戳,指示事件发生的时间(请参阅Apache Flink中的“事件时间”)或消息写入Kafka代理的时间 . 如果Flink中的时间特性设置为TimeCh...
  • 0 votes
     answers
     views

    在代码中访问Flink的系统指标到终端,而不是像JMX那样使用任何指标报告者

    我使用JMX作为度量报告器来获取Flink指标,但有没有办法将其作为终端输出? 我想为每个运营商绘制 numRecordsInPerSecond 进行性能分析,我该怎么办? 我已经看到了累加器的一些例子,但它没有给我正确的见解我如何进行Flink的性能分析 . 我会在这里举个例子 这是我的Flink程序的执行计划,我有多个问题,但我想问基本问题 如何测量每个运算符的延迟,然后将其相加以计算复...
  • 1 votes
     answers
     views

    动态调节fl fl Kafka 来源

    我们正在使用多个kafka主题,但希望优先考虑其中一些(〜服务质量) . 根据我在网上发现的情况,我们的共识是不会限制运算符,而是限制源,更具体地说是反序列化器[1] . 我们如何在源中访问有关流环境状态的信息(即主题滞后于当前偏移的距离) . 目前,我们计划将整个设置转换为CoFlatMaps [2]并且具有针对所有主题发出当前偏移滞后的控制流 - 低优先级流运营商然后根据高优先级流的滞后休眠 ...
  • 0 votes
     answers
     views

    Scala - Flink Monitoring API(上传作业)

    美好的一天,我有一个问题,使用 Scala 将 Jobs 上传至 Flink API 所有 Get 请求似乎都有效 import scalaj.http._ val url: String = "http://127.0.0.1:8081" val response: HttpResponse[String] = Http(url+"/config").a...
  • 0 votes
     answers
     views

    如何在apache梁中处理非窗口管道中的乱序事件或延迟事件

    我的管道使用更像是滚动更新程序 . 它从Kafka开始,获取消息,并不断更新更新程序,最后从更新程序生成0或多个决策事件 . 它更像是有状态的ParDo,在本文中描述:https://beam.apache.org/blog/2017/02/13/stateful-processing.html kafka => [message] =>有状态的pardo => [决策] 在这种...
  • 0 votes
     answers
     views

    如何解决Kafka Producer中的RecordTooLargeException?

    我正在使用 FlinkKafkaProducer08 向Kafka发送记录 . 但有时我得到以下异常,即使我在错误消息中打印的记录太小,大小为0.02 MB . java.lang.RuntimeException: Could not forward element to next operator Caused by: java.lang.RuntimeException: Could not...
  • 1 votes
     answers
     views

    Flink Table API和SQL以及 Map 类型(Scala)

    我在 streaming 环境中使用Flink 's Table API and/or Flink'的SQL支持(Flink 1.3.1,Scala 2.11) . 我从 DataStream[Person] 开始, Person 是一个案例类,看起来像: Person(name: String, age: Int, attributes: Map[String, String]) 一切都按预期...
  • 106 votes
     answers
     views

    Flink和Storm之间的主要区别是什么?

    Flink已经compared to Spark,我认为这是错误的比较,因为它将窗口事件处理系统与微批处理进行比较;同样,将Flink与Samza进行比较对我来说没有多大意义 . 在这两种情况下,它都会比较实时与批量事件处理策略,即使是在Samza的情况下较小的"scale" . 但我想知道Flink与Storm的比较,它在概念上看起来与它更相似 . 我发现this(幻灯片#4...
  • 1 votes
     answers
     views

    Flink Streaming - 如何基于第一个(按事件时间戳)键控事件创建窗口

    我正在使用Flink的DataStream API来处理带有翻滚窗口的键控流 . 简化问题如下: 输入事件对象示例: {timestamp:1462363362000, user_id:1, country:US, mark:50} {timestamp:1462363361000, user_id:1, country:US, mark:40} {timestamp:1462363368000,...
  • 3 votes
     answers
     views

    使用Apache Flink进行数据流传输

    我正在构建一个具有以下要求的应用程序,我刚刚开始使用flink . 用50个分区将数据摄取到Kafka(传入速率 - 100,000 msgs / sec) 从Kafka读取数据并实时处理每个数据(进行一些计算,与旧数据比较等) 将输出存储在Cassandra上 我一直在寻找一个实时流媒体平台,并发现Flink非常适合实时和批量 . 你认为flink最适合我的用例,还是应该使...
  • 1 votes
     answers
     views

    Flink关闭挂钩以最大限度地减少数据丢失/重复

    我有一个从kafka读取数据的flink作业,从redis读取一些内容然后将聚合的窗口数据写入redis接收器(redis写入实际上是调用加载到redis中的lua脚本来增加现有值,所以我只能在这里增加而不是更新) . 问题是,当我停止工作(维护,代码更改等)时,即使使用保存点,我也必须在重新开始时将重复数据写入redis或丢失一些数据,因为据我所知, redis sink对语义没有保证(确切/至...
  • 0 votes
     answers
     views

    Flink HDFS Savepoint无法正常工作

    我这样做了.1192498_ t . 我的保存点路径是 hdfs://hadoop:54310/savepoint/testpoint ,我在提交任务之前在UI中指定了该路径 . 它给我以下错误消息:(无效的路径) org.apache.flink.client.program.ProgramInvocationException: Failed to submit the job to the ...
  • 0 votes
     answers
     views

    由于字节顺序不匹配,无法使用Flink RocksDB状态后端

    我的Flink Job从kafka主题读取并将数据存储在RocksDB状态后端中,以便利用可查询状态 . 我能够运行该作业并在本地计算机中查询状态 . 但是在集群上部署时,我收到以下错误: Caused by: org.apache.flink.runtime.client.JobExecutionException: Job execution failed. at org.apache.fli...
  • 2 votes
     answers
     views

    Flink流窗口内存使用情况

    我正在评估Flink专门针对可能的警报生成的流媒体窗口支持 . 我担心的是内存使用情况,所以如果有人可以提供帮助,我们将不胜感激 . 例如,该应用程序将在给定的翻滚窗口(例如5分钟)内消耗来自流的大量数据 . 在评估时,如果有一百万个文档例如符合标准,那么它们都会被加载到内存中吗? 一般流程将是: producer -> kafka -> flinkkafkaconsumer -&gt...
  • 0 votes
     answers
     views

    Flink在timeWindow上应用函数

    我正在做一个Flink项目 . 该项目的主要思想是读取JSON的数据流(网络日志),关联它们,并生成一个新的JSON,它是不同JSON信息的组合 . 此时,我能够读取JSON,生成KeyedStream(基于生成日志的机器),然后生成5秒的窗口流 . 我想要执行的下一步是对窗口使用apply函数并组合每个JSON的信息 . 我对如何做到有点困惑 . 我目前的代码如下: DataStream<...
  • 0 votes
     answers
     views

    任务跨Flink数据流的多个步骤的节点内的本地处理

    任务节点内的本地处理: Flink数据流管道中是否有一种方法可以确保数据流的第一步和第二步发生在同一本地任务槽/本地计算机上? 使用案例:在第二步中需要在同一台机器上本地使用第一步的图像时,是否需要实时视频处理?这减轻了必须从第二个节点中的另一个节点获取巨大图像(Hadoop天的基本位置要求) . TaskManagers可以将本地状态存储在内存中或本地磁盘上 . 如何让JobManager将第...
  • 1 votes
     answers
     views

    在Flink中键入流中的记录顺序

    我有一个流,其中记录按顺序到达 . 我应用了map函数,然后使用keyBy函数 . 是否使用相同的密钥在每个记录流中维护记录的顺序? 在Ordering of Records in Stream中也有类似的问题 . 但我在那里给出的答案和从链接“https://ci.apache.org/projects/flink/flink-docs-release-1.2/concepts/programm...
  • 2 votes
     answers
     views

    flink sink只支持bio吗?

    沉没的 invoke 方法似乎无法制作异步io?例如返回 Future ? 例如,redis连接器使用jedis lib同步执行redis命令: https://github.com/apache/bahir-flink/blob/master/flink-connector-redis/src/main/java/org/apache/flink/streaming/connectors/red...
  • 0 votes
     answers
     views

    Flink缓冲请求阻塞导致性能低下

    至于flink-1.1.5上的实时流数据平台,我遇到了一个问题 . phenomenal description: flink job的业务逻辑是一个通用的ETL过程,源操作符和接收操作符都基于kafka,而变换操作符是一些相关的etl逻辑 . 但来自源操作员读取的kafka主题的数据大小不同,例如一个数据在非高峰时段只有不到100 KB,而其他数据在高峰时段接近600KB . 在非峰值会话中,...
  • 0 votes
     answers
     views

    在Apache Flink中动态添加模式而无需重新启动作业

    我的用例是我想将不同的CEP模式应用于同一个数据流 . CEP模式是动态的,我希望它们可以添加到flink而无需重新启动作业 . 虽然可以通过实现IterativeCondition的自定义类来处理所有条件,但我的主要问题是时间条件只接受TimeWindow;这是无法处理的 . 是否有某种方法可以根据输入元素设置传递给.within()的值? 这里有类似的问题:Flink and Dynamic...
  • 0 votes
     answers
     views

    Flink:在DataStream和“一组规则”之间实现“连接”

    以下用例的最佳实践建议是什么?我们需要将流与一组“规则”进行匹配,这些“规则”本质上是一个Flink DataSet概念 . 可以对这个“规则集”进行更新但不经常 . 每个流事件必须针对“规则集”中的所有记录进行检查,并且每个匹配都会将一个或多个事件生成到接收器数据流中 . 规则集中的记录数是在6位数范围内 . 目前,我们只是将规则加载到本地规则列表中,并在传入的DataStream上使用flat...
  • 0 votes
     answers
     views

    如何通过datastrem API或Flink Table API / SQL在给定密钥和公共窗口上连接三个或更多数据流/表?

    我想在给定的密钥和公共窗口上加入 three or more 数据流或表 . 但是我不知道如何正确编写代码 . 官方文档https://ci.apache.org/projects/flink/flink-docs-release-1.5/dev/stream/operators/给出了下面的例子,但是它只加入了两个数据流,那么如何在给定的密钥和公共窗口上加入 three or more 数据流呢...
  • 0 votes
     answers
     views

    为什么键控流(在keyBy上)创建倾斜的下游执行?

    我有一个案例,其中有8个键(在keyBy上),并且插槽上的传播是倾斜的 . 我有一个3的并行性,键控操作的传播是5,2和1,单个插槽上有5个键 . 有没有办法确保键控操作的分配是 balancer 的 . (我们没有对键控流进行分区操作)
  • 1 votes
     answers
     views

    Flink:总结所有分区结果的最佳方法是什么

    数据流被分区并分发到每个插槽以进行处理 . 现在我可以得到每个分区任务的结果 . 将某些函数应用于不同分区的结果并获得全局汇总结果的最佳方法是什么? 更新:我想实现一些数据汇总算法,如Flink中的Misra-Gries . 它将维护k个计数器并随数据到达而更新 . 由于数据可能具有较大的可扩展性,因此每个分区都有自己的k个计数器并处理并行更好 . 最后将这些计数器合并到最终的k计数器以显示结果 ...
  • 2 votes
     answers
     views

    Flink Queryable状态不起作用

    我正在从IDE运行flink . 在可查询中存储数据是有效的,但不知何故,当我查询它时,它会抛出异常 Exeception Failure(akka.actor.ActorNotFound: Actor not found for: ActorSelection[Anchor(akka.tcp://flink@127.0.0.1:6123/), Path(/user/jobmanager)]) ...

热门问题