当工作准备时间超过25分钟时，数据湖工作失败

提问于 2024-05-03T15:10:08+08:00

浏览次

2

我在Data Lake处理大约4000个csv文件的输入文件集，当作业准备时间超过25分钟时，作业失败并出现脚本编译错误

我们要求批量处理超过4000个csv文件，我听说微软有一个预览解决方案来处理输入文件集大小大到30,000个文件

1 回答

2

目前这是opt-in preview feature . 请使用此链接中的"contact us"部分与ADLA支持团队联系 .

Input File Set scales orders of magnitudes better (requires opt-in) https://github.com/Azure/AzureDataLake/blob/master/docs/Release_Notes/2017/2017_03_09/USQL_Release_Notes_2017_03_09.md

作为替代方案，您可以考虑使用Azure SQL数据仓库和Polybase来导入和存储速度非常快的平面文件 . 然后，ADLA可以使用federated tables连接到Azure SQL数据仓库 . 这使您能够实现逻辑数据湖的概念，该湖使用Azure SQL数据仓库和Azure数据湖分析（ADLA）这两种产品 . 权衡是一种更复杂的架构/设置，但Polybase针对快速平面文件导入进行了优化 . 只是一个想法 .

NB 我不为微软工作，我只是复制和粘贴链接:)

回复于 2024-05-03T15:10:08+08:00

相关问题