AWS Athena从表格中返回零记录从GLUE Crawler输入来自S3的csv-Java 学习之路

Part One :

我尝试使用胶水爬虫在s3中加载的虚拟csv上运行它创建了一个表但是当我在athena中尝试查看表并查询它时它显示返回Zero Records .

但是，雅典娜的ELB演示数据运行良好 .

Part Two (Scenario:)

假设我有一个excel文件和数据字典，说明数据存储在该文件中的方式和格式，我希望将这些数据转储到AWS Redshift中 . 最好的方法是什么？

4 回答

0

我遇到了同样的问题 . 您需要将文件夹路径而不是真实文件名提供给爬网程序并运行它 . 我尝试将文件夹名称提供给爬虫并且它有效 . 希望这可以帮助 . 让我知道 . 谢谢，

回复于 2024-05-12T05:35:29+08:00
2

我遇到了同样的问题 . 尝试为s3存储桶中的单个表创建单独的文件夹，而不是重新运行glue crawler . 您将在粘贴数据目录中获取一个与s3存储桶文件夹名称相同的新表 .

回复于 2024-05-12T05:35:29+08:00
11

删除Crawler再次创建Crawler（在s3中只有一个csv文件不应该更多可用并运行爬虫） important note one CSV file 运行它我们可以查看Athena中的记录 .

回复于 2024-05-12T05:35:29+08:00
1

我确实提供了S3文件夹路径而不是文件名，仍然无法让Athena返回任何记录（“返回零记录”，“数据扫描：0KB”） .

原来问题是输入文件（我的旋转日志文件自动从Elastic Beanstalk上传到S3）以下划线（ _ ）开头，例如 _var_log_nginx_rotated_access.log1534237261.gz ！显然这是不允许的 .

回复于 2024-05-12T05:35:29+08:00