Flink窗口和状态维护-Java 学习之路

我正在研究apache flink的数据流，我几乎没有问题 . 任何帮助是极大的赞赏 . 谢谢 .

1）创建翻滚窗口是否有任何限制 . 例如，如果我想为每个用户ID创建一个翻滚窗口，持续2秒，让我们说如果我有超过1000万用户ID则会出现问题 . （我正在使用keyBy用户ID，然后创建一个timeWindow 2秒）？如何在flink内部维护这些窗口？

2）我查看了循环分区的重新 balancer . 假设我有一个集群设置，如果我有源的并行性为1，如果我进行重新 balancer ，我的数据是否会在机器之间进行混洗以提高性能？如果有，是否有一个特定的端口用于将数据传输到集群中的其他节点？

3）状态维护是否有任何限制？我打算维护一些可能会变得非常大的用户ID相关数据 . 我读到了使用岩石db来维持状态的flink . 只是想检查一下可以维护多少数据有任何限制？

4）如果数据量较少，那么状态在哪里？（我想在JVM内存中）如果我的集群上有多台机器，每个节点都可以获得当前的状态版本吗？

1 回答