在Airflow任务之间共享大的中间状态-Java 学习之路

我们与Celery执行程序部署了Airflow .

我们的许多DAG都需要 BashOperator 或 PythonOperator 中某个文件的本地处理步骤 .

但是，根据我们的理解，给定DAG的任务可能并不总是安排在同一台机器上 .

到目前为止我收集的任务之间的状态共享选项：

Use Local Executors - 对于一支球队来说这可能就足够了，具体取决于负荷，但可能无法扩展到更广泛的公司
Use XCom - 这是否有尺寸限制？可能不适合大文件
Write custom Operators 用于需要在其间进行本地处理的每个任务组合 . 这种方法减少了任务的模块化，需要复制现有的运营商代码 .
Use Celery queues to route DAGs to the same worker （docs） - 这个选项起初看起来很有吸引力，但是为了避免将所有内容都路由到一个 Actuator 或者制作一百万个队列，设置它的方法是什么？

在运行执行程序的所有计算机中

在Airflow中的任务之间共享大型中间状态（如文件）的推荐方法是什么？

1 回答