在HDFS中,尝试在处理完所有子目录/文件后移动目录 .

通过python的 subprocess 模块使用 hadoop -mv 命令 .

我的问题是,具有相同名称的目录可以再次用于处理不同的文件集 . hadoop -mv 失败,文件存在错误 .

循环遍历完整目录并移动不存在的文件会使进程变慢,因为给定目录中可能有很多子目录

有没有标准的方法来移动文件来实现移动/替换功能?

或者,如果有任何其他标准方式处理已处理的文件/目录,则可以遵循

我的目录结构:新的未处理文件 - / new / YEAR / MONTH / DAY / ID / files处理文件 - /处理/ YEAR / MONTH / DAY / ID /文件

一旦处理完DAY中的所有文件,文件将被移动到处理