首页 文章

如何在Azure数据工厂中处理增量和完全上载

提问于
浏览
0

我们有一个拥有2个blob商店的Azure存储帐户 . 完整版和公司版在完整版中,我们会在需要完全上传时放置完整的上传CSV文件,在公司中我们只会逐日放置小型增量CSV文件 . 我们首先在分段中加载所有数据,然后在ODS中加载到Edw(Enterprise DW) . 只有在对表进行结构更改时才需要完整上载 .

基本上两个上传之间的唯一区别是,full还清除了ODS和EDW中的所有数据,但在管道中运行相同的存储过程,...

任何人都有关于如何在Azure数据工厂中处理这种情况的提示 . 我宁愿不加倍数据工厂,但由于输出数据集的可用性/频率不同,我不能使用相同的登台逻辑(在数据工厂中)表作为输出数据集....

所以任何提示都表示赞赏......

1 回答

  • 0

    首先要明确的是,ADF就是在那里调用其他Azure服务,它本身并不做任何工作 . 所以问题确实是; Azure中您可以从ADF调用哪些服务来完成这项工作并管理这种情况?

    要回答......

    Option 1: 我建议你看看Azure Data Lake . 我在USQL中已经描述过,其中参数可以从ADF传递给USQL过程以用于不同类型的行为 .

    您创建的代码可以存在于Azure Data Lake Analytics数据库中,类似于TSQL对象 . 然后也许开始使用Azure Data Lake Storage,而不是普通的blob .

    Option 2: 打破C#并创建自己的Azure数据工厂自定义活动,并创建一组类来完全满足您的需求 . 再次使用ADF传递的params或在方法中包含逻辑来检查'full'表内容 . 但是,这将涉及更多的开发工作,并且需要用于计算的Azure批处理服务 .

相关问题