首页 文章

当工作准备时间超过25分钟时,数据湖工作失败

提问于
浏览
2

我在Data Lake处理大约4000个csv文件的输入文件集,当作业准备时间超过25分钟时,作业失败并出现脚本编译错误

我们要求批量处理超过4000个csv文件,我听说微软有一个预览解决方案来处理输入文件集大小大到30,000个文件

1 回答

  • 2

    目前这是opt-in preview feature . 请使用此链接中的"contact us"部分与ADLA支持团队联系 .

    Input File Set scales orders of magnitudes better (requires opt-in) https://github.com/Azure/AzureDataLake/blob/master/docs/Release_Notes/2017/2017_03_09/USQL_Release_Notes_2017_03_09.md

    作为替代方案,您可以考虑使用Azure SQL数据仓库和Polybase来导入和存储速度非常快的平面文件 . 然后,ADLA可以使用federated tables连接到Azure SQL数据仓库 . 这使您能够实现逻辑数据湖的概念,该湖使用Azure SQL数据仓库和Azure数据湖分析(ADLA)这两种产品 . 权衡是一种更复杂的架构/设置,但Polybase针对快速平面文件导入进行了优化 . 只是一个想法 .

    NB 我不为微软工作,我只是复制和粘贴链接:)

相关问题