首页 文章

AWS Glue Crawler - 读取csv的gzip文件

提问于
浏览
1

你能帮我看一下使用Glue Data爬虫的tar.gz文件吗?我有一个tar.gz文件,其中包含我S3中不同模式中的几个文件,当我尝试运行爬虫时,我没有在数据目录中看到模式 . 我们应该使用任何自定义分类器吗? AWS Glue FAQ指定使用分类器支持gzip,但未在Glue Classifier部分中提供的分类器列表中列出 .

谢谢

3 回答

  • 0

    根据内置分类器的Glue Crawler官方AWS文档,此功能应该100%支持且透明 .

    https://docs.aws.amazon.com/glue/latest/dg/add-classifier.html

    内置了使用gzip压缩的csv格式 .

    但是,我建议如果AWS Support不按照您的描述工作,请与AWS Support联系 .

  • 1

    您可以使用lambda解压缩文件,然后使用crawler

  • 0

    您是否检查了爬虫是否可以解析文件本身?只需创建一个包含原始文件中几行的示例文件,然后运行搜寻器以查看它是否可以推断架构 . 如果没有,您可能需要自定义分类器 . 它特别适用于空格分隔的文本文件 . 你可以在这里粘贴一些样品线,如果这样可以 .

相关问题