首页 文章

从Azure Data Factory开始

提问于
浏览
2

我是Azure数据工厂的新手,我正在为我的组织进行概念验证,我发现很难获得关于相当基本的事情的良好信息,我希望有人能指出我一些好的资源我的用例 .

我知道这个问题很普遍,但任何帮助都会有用 . 我此刻正在四处走动,我觉得我浪费了很多时间 . 到目前为止,我需要几个小时的研究,而且我还没有取得多大进展 .

这是用例:

  • 一个gzip存档每小时到达blob存储,它有几个.tsv文件,但我想提取一个,它有web点击流数据 .

  • 我想从存档中提取这个.tsv文件,将日期时间附加到名称,然后将其保存到Azure数据湖存储 .

  • 我希望每次新的gzip存档到达时都会发生这种情况 .

到目前为止,我有:

  • Azure Data Factory V2设置

  • 链接服务设置到blob容器

  • 链接服务设置到数据湖存储Gen1

  • 我认为为ADF分类的所有权限和防火墙问题都是为了访问存储 .

Azure Data Factory是否适合这项工作?如果是的话,我从哪里开始?如何构建数据集和管道以实现用例,以及如何在新zip到达时安排此操作?

1 回答

  • 0

    Azure Data Factory构建了复杂的混合提取 - 转换 - 加载(ETL),提取 - 加载 - 转换(ELT)和数据集成项目,这也是此工作的正确工具 . 根据当前的知识,您需要在数据工厂中进行以下设置:

    • 创建管道以运行整个工作流程,其中涉及Copy activity,源数据集为blob,接收数据集为data lake store Gen1 . 请注意,源blob数据集是指您的blob linkedservice,而sink数据湖存储Gen1是指数据湖存储Gen1链接服务 .

    • 对于blob源数据集设置,设置compression type property as GZIP,这允许ADF从blob读取GZIP压缩数据 .

    • 每次新的gzip存档到达时,使用event trigger来触发管道运行 .

相关问题