首页 文章

USQL查询大文件

提问于
浏览
1

我在Azure Data Lake商店中有一个非常大的文件(257 gb),当我昨天尝试对其进行简单的提取时,我收到以下错误

顶点运行超过5小时后终止 . 具有guid {2F8802B8-F93A-47EE-80E2-274590BD76A5}的顶点SV1_Extract_Partition [0] [53] .v0的输入大小为1.171594 GB . 在大多数情况下,这是由数据偏差引起的,例如包含大部分数据的一个数据分区 . 使用不同的分区方案或重新分区数据可以解决此类问题 .

所以我很确定发生的事情是U-SQL没有正确地对我的文件进行分区 . 我正在使用自定义书面提取器,但我不明白为什么这应该是和问题 .

如何确保对文件进行分区 . 这个错误花了我很多钱(超过2000美元),所以我真的不希望再次以这种规模运行任何东西,然后才能确保在作业运行时我的文件被正确分区 .

我是否真的必须手动将文件拆分为较小的文件?

1 回答

  • 1

    分区大小约1GB似乎正常 . 问题可能在于您的自定义提取器,它确实处理了超过5小时的数据 .

    我建议调查你的提取器在文件的特定分区上做了什么 .

相关问题