从Azure Data Factory开始

提问于 2024-04-28T02:48:09+08:00

浏览次

2

我是Azure数据工厂的新手，我正在为我的组织进行概念验证，我发现很难获得关于相当基本的事情的良好信息，我希望有人能指出我一些好的资源我的用例 .

我知道这个问题很普遍，但任何帮助都会有用 . 我此刻正在四处走动，我觉得我浪费了很多时间 . 到目前为止，我需要几个小时的研究，而且我还没有取得多大进展 .

这是用例：

一个gzip存档每小时到达blob存储，它有几个.tsv文件，但我想提取一个，它有web点击流数据 .
我想从存档中提取这个.tsv文件，将日期时间附加到名称，然后将其保存到Azure数据湖存储 .
我希望每次新的gzip存档到达时都会发生这种情况 .

到目前为止，我有：

Azure Data Factory V2设置
链接服务设置到blob容器
链接服务设置到数据湖存储Gen1
我认为为ADF分类的所有权限和防火墙问题都是为了访问存储 .

Azure Data Factory是否适合这项工作？如果是的话，我从哪里开始？如何构建数据集和管道以实现用例，以及如何在新zip到达时安排此操作？

1 回答

0
Azure Data Factory构建了复杂的混合提取 - 转换 - 加载（ETL），提取 - 加载 - 转换（ELT）和数据集成项目，这也是此工作的正确工具 . 根据当前的知识，您需要在数据工厂中进行以下设置：
- 创建管道以运行整个工作流程，其中涉及Copy activity，源数据集为blob，接收数据集为data lake store Gen1 . 请注意，源blob数据集是指您的blob linkedservice，而sink数据湖存储Gen1是指数据湖存储Gen1链接服务 .
- 对于blob源数据集设置，设置compression type property as GZIP，这允许ADF从blob读取GZIP压缩数据 .
- 每次新的gzip存档到达时，使用event trigger来触发管道运行 .
回复于 2024-04-28T02:48:09+08:00

相关问题