首页 文章

Azure Data Factory V1-如何在一个管道活动中处理多个脚本

提问于
浏览
0

目前我正在尝试在Microsoft Azure上读取和取消使用未知列名的csv文件 . 因此,我使用的数据工厂有两个数据湖分析活动:第一个活动生成一个脚本来读取和取消数据,第二个活动就是执行这个脚本 . 我的问题是,有时第一个活动生成的脚本太大了

“提供的U-SQL脚本长度为6449969字节,超过了2097152字节的大小限制 . ”

我的想法是拆分它们,但我认为不可能在1个活动中运行多个脚本 . 由于我不知道脚本将被划分多少方,我不能只添加一定数量的活动 .

有什么建议?

1 回答

  • 1

    此时解决此限制的唯一方法是编写自定义提取器 . 但是,您必须将数据不是作为字符串而是作为byte []公开 .

    如果您使用只读取字节数组的自定义提取器,则最多可以达到4MB .

    一般来说,如果你需要解析你的行,那么如果你编写自定义提取器而不是使用内置提取器然后编写另外一个U-SQL转换来解析数据(再次),它可能会更快 .

    你可以参考这个回购可能有一些见解 - https://github.com/Azure/usql/tree/mrys-json

相关问题