首页 文章

Azure Data Lake存储和数据工厂 - 临时GUID文件夹和文件

提问于
浏览
1

我正在使用Azure数据存储库(ADLS),该数据库由Azure数据工厂(ADF)管道定向,该管道从Blob存储读取并写入ADLS . 在执行期间,我注意到在输出ADLS中创建了一个在源数据中不存在的文件夹 . 该文件夹具有名称的GUID和其中的许多文件,以及GUID . 该文件夹是临时的,大约30秒后它就会消失 .

这是ADLS元数据索引的一部分吗?这是ADF在处理过程中使用的东西吗?虽然它出现在门户网站的数据资源管理器中,但它是否通过API显示?我担心它可能会产生问题,即使它是一个临时结构 .

任何洞察力都很受欢迎 - 谷歌很少见 .

Picture of the transient folder

1 回答

  • 1

    因此,无论您使用何种方法上传数据并将数据复制到其中,您在此处看到的内容都是Azure Data Lake Storage所做的事情 . 它不是特定于Data Factory而不是您可以控制的 .

    对于大文件,它基本上并行化了单个文件的读/写操作 . 然后,您可以在临时目录中为并行操作的每个线程获取多个较小的文件 . 完成后,该过程将线程连接到单个预期目标文件中 .

    Comparison :这类似于PolyBase在SQLDW中的作用,其8个外部读取器以512MB块的形式命中文件 .

    我理解你的担忧 . 我已经完成了与操作失败和临时文件的战斗 . 我的建议是在指定目标文件路径时明确您的下游服务 .

    One other thing ,我在使用Visual Studio Data Lake文件浏览器工具上传大文件时遇到了问题 . 有时并行线程 did not concatenate into the single correctly 并导致我的结构化数据集中的损坏 . 这与4 - 8GB区域的文件有关 . 被警告!

    边注 . 我发现PowerShell在处理上传到Data Lake Store时最可靠 .

    希望这可以帮助 .

相关问题