USQL查询大文件-Java 学习之路

我在Azure Data Lake商店中有一个非常大的文件（257 gb），当我昨天尝试对其进行简单的提取时，我收到以下错误

顶点运行超过5小时后终止 . 具有guid {2F8802B8-F93A-47EE-80E2-274590BD76A5}的顶点SV1_Extract_Partition [0] [53] .v0的输入大小为1.171594 GB . 在大多数情况下，这是由数据偏差引起的，例如包含大部分数据的一个数据分区 . 使用不同的分区方案或重新分区数据可以解决此类问题 .

所以我很确定发生的事情是U-SQL没有正确地对我的文件进行分区 . 我正在使用自定义书面提取器，但我不明白为什么这应该是和问题 .

如何确保对文件进行分区 . 这个错误花了我很多钱（超过2000美元），所以我真的不希望再次以这种规模运行任何东西，然后才能确保在作业运行时我的文件被正确分区 .

我是否真的必须手动将文件拆分为较小的文件？

1 回答

1

分区大小约1GB似乎正常 . 问题可能在于您的自定义提取器，它确实处理了超过5小时的数据 .

我建议调查你的提取器在文件的特定分区上做了什么 .

回复于 2024-05-03T20:20:21+08:00

USQL查询大文件

1 回答

相关问题