首页 文章

AWS Athena从表格中返回零记录从GLUE Crawler输入来自S3的csv

提问于
浏览
4

Part One :

我尝试使用胶水爬虫在s3中加载的虚拟csv上运行它创建了一个表但是当我在athena中尝试查看表并查询它时它显示返回Zero Records .

但是,雅典娜的ELB演示数据运行良好 .

Part Two (Scenario:)

假设我有一个excel文件和数据字典,说明数据存储在该文件中的方式和格式,我希望将这些数据转储到AWS Redshift中 . 最好的方法是什么?

4 回答

  • 0

    我遇到了同样的问题 . 您需要将文件夹路径而不是真实文件名提供给爬网程序并运行它 . 我尝试将文件夹名称提供给爬虫并且它有效 . 希望这可以帮助 . 让我知道 . 谢谢,

  • 2

    我遇到了同样的问题 . 尝试为s3存储桶中的单个表创建单独的文件夹,而不是重新运行glue crawler . 您将在粘贴数据目录中获取一个与s3存储桶文件夹名称相同的新表 .

  • 11

    删除Crawler再次创建Crawler(在s3中只有一个csv文件不应该更多可用并运行爬虫) important note one CSV file 运行它我们可以查看Athena中的记录 .

  • 1

    我确实提供了S3文件夹路径而不是文件名,仍然无法让Athena返回任何记录(“返回零记录”,“数据扫描:0KB”) .

    原来问题是输入文件(我的旋转日志文件自动从Elastic Beanstalk上传到S3)以下划线( _ )开头,例如 _var_log_nginx_rotated_access.log1534237261.gz !显然这是不允许的 .

相关问题