我正在尝试编写一个AWS Glue ETL作业,该作业根据最新的架构版本更新架构 .
我知道这通常不是理想的行为,但是为了最小化输出文件的数量,是否可以直接对源数据进行转换,以便将转换后的数据加载回同一路径?
或者是否可以删除源路径中的数据,然后将其重写到同一目的地?
除非您要自动执行该过程,否则不需要ETL作业来编辑模式 . 您可以使用AWS Glue crawler生成的数据目录的编辑模式功能 .
导航到AWS Glue的表格
选择要更改架构的表
您可以在表格中找到编辑架构按钮
编辑架构后,您可以看到AWS Glue自动维护的表版本
此外,您还可以比较表的版本
1 回答
除非您要自动执行该过程,否则不需要ETL作业来编辑模式 . 您可以使用AWS Glue crawler生成的数据目录的编辑模式功能 .
导航到AWS Glue的表格
选择要更改架构的表
您可以在表格中找到编辑架构按钮
编辑架构后,您可以看到AWS Glue自动维护的表版本
此外,您还可以比较表的版本