首页 文章

如何使用Azure DataFactory管道回填然后将其转换为正在运行的计划?

提问于
浏览
2

我有大量的blob包含需要复制到azure sql表中的日志数据,并且会有更多的blob定期到达 . Blob以 [ORIGINALTARFILENAME].tar.gz.log 格式命名 .

如何使用数据工厂使其执行初始回填而不超时,然后转换相同的管道以定期运行,以便不会两次处理blob?

它本质上是:

  • 创建一次性流程

  • 在VS中打开进程

  • 修改json以包含某种时间表

  • 部署更改

1 回答

  • 1

    这取决于您的数据的准确程度 . 数据工作最适合可以轻松划分为基于时间的切片的数据集 . 如果 ORIGINALTARFILENAME 包含创建blob的日期和时间,则只需一个管道即可以简单的方式实现所需的目标 .

    您可以使用官方文档中的此示例作为起点:https://azure.microsoft.com/en-us/documentation/articles/data-factory-azure-blob-connector/

    然后在过去设置足够远的活动 startDate 以获取已经存在的所有blob . 回填将与新切片并行运行(增加活动 concurrency 将确保没有任何东西变得饥饿)并且您不必以任何特殊方式对待它,因为每个blob将恰好对应于一个切片并因此被处理一次 .

相关问题