我计划使用Azure Data Factory作为项目中数据湖分析作业的触发器 . 数据湖作业将根据StreamAnalytics处理并存储在Data Lake中的传感器输入数据计算关键值 . 这些工作应该每隔约5分钟计算一次 .
根据Microsoft文档,不可能配置小于15分钟的间隔/频率 .
任何人都面临同样的问题并找到了解决方案,还是在这种情况下使用不同的工具作为Azure数据工厂更好?
正如您已经注意到的那样 - 最小可配置间隔为15分钟 . 如果你寻找更小的间隔,你应该看看流媒体解决方案而不是数据工厂 . 因为你的问题中有真实的背景,我不能建议你应该看哪个服务 . 但Azure Logic应用程序可能是一个很好的候选者,因为你可以有1个间隔 .
在ADF中,一个频率的频率小于15分钟是可取的 . https://docs.microsoft.com/en-us/azure/data-factory/data-factory-scheduling-and-execution
对于您的用例,您可以查看Azure流分析,该流分析用于从IOT进行流式提取https://docs.microsoft.com/en-us/azure/stream-analytics/
您可以使用输出数据集中具有不同名称和不同可用性配置的管道的多个副本来执行此操作 . 例如,将3个数据集设置为这3个可用性配置的3个管道将覆盖每个5分钟的间隔:
"availability": { "frequency": "Minute", "interval": 15, "anchorDateTime":"2017-10-01T00:00:00" } "availability": { "frequency": "Minute", "interval": 15, "anchorDateTime":"2017-10-01T00:00:05" } "availability": { "frequency": "Minute", "interval": 15, "anchorDateTime":"2017-10-01T00:00:10" }
请注意,如果您不希望执行重叠,则可能需要实现某种同步锁定 .
3 回答
正如您已经注意到的那样 - 最小可配置间隔为15分钟 . 如果你寻找更小的间隔,你应该看看流媒体解决方案而不是数据工厂 . 因为你的问题中有真实的背景,我不能建议你应该看哪个服务 . 但Azure Logic应用程序可能是一个很好的候选者,因为你可以有1个间隔 .
在ADF中,一个频率的频率小于15分钟是可取的 . https://docs.microsoft.com/en-us/azure/data-factory/data-factory-scheduling-and-execution
对于您的用例,您可以查看Azure流分析,该流分析用于从IOT进行流式提取https://docs.microsoft.com/en-us/azure/stream-analytics/
您可以使用输出数据集中具有不同名称和不同可用性配置的管道的多个副本来执行此操作 . 例如,将3个数据集设置为这3个可用性配置的3个管道将覆盖每个5分钟的间隔:
请注意,如果您不希望执行重叠,则可能需要实现某种同步锁定 .