首页 文章

远程气流Dags

提问于
浏览
1

我计划在 Cloud 存储上部署气流dags,并提供与GCS的连接,并从运行在Google Compute Engine实例上的Airflow访问这些dag .

从文档中可以清楚地看到远程日志记录是可行的 .

我想在GCS上完全保留Airflow的存储(Logs and Dags)部分,因为我必须管理这些文件 to avoid modifying the files on the VM once deployed .

此外,随着日志的增加,它开始占用 Cloud VM磁盘上的大量空间 .

是否可以在GCS上存储dags . 如果是这样,我怎样才能做到这一点 .

提前致谢 .

3 回答

  • 0

    我迟到了,但你可以将一个存储桶作为文件系统安装到你的VM(或任何Linux系统) .

    与实际文件系统相比,我的体验可能有点慢,但如果我理解正确,这应该对你有用 .

    有关此工作的详细信息,请参阅documentation .

  • 0

    Google Cloud Platform似乎与气流广泛集成,用于数据处理和存储 .

    有一篇官方的文章解释了如何将Airflow与BigQuery连接起来 . 此外,在official Airflow documentation中还有一个用于Google Cloud Platform集成的附加部分,可以解释完整集成的其他详细信息 .

    总而言之,BigQuery似乎是适合您的产品,它是一个专门的Google工具,可以管理大量数据库,并且可以轻松地使用外部工具和其他Google产品(如虚拟机)进行操作和操作 .

  • 1

    在GCS中实现保存DAG的一种方法是将它们作为JSON存储在存储桶中 . 像这样,您可以避免将文件存储在VM中 .

    显示如何执行此操作的示例是此其他Stackoverflow post

相关问题