Part One :
我尝试使用胶水爬虫在s3中加载的虚拟csv上运行它创建了一个表但是当我在athena中尝试查看表并查询它时它显示返回Zero Records .
但是,雅典娜的ELB演示数据运行良好 .
Part Two (Scenario:)
假设我有一个excel文件和数据字典,说明数据存储在该文件中的方式和格式,我希望将这些数据转储到AWS Redshift中 . 最好的方法是什么?
我遇到了同样的问题 . 您需要将文件夹路径而不是真实文件名提供给爬网程序并运行它 . 我尝试将文件夹名称提供给爬虫并且它有效 . 希望这可以帮助 . 让我知道 . 谢谢,
我遇到了同样的问题 . 尝试为s3存储桶中的单个表创建单独的文件夹,而不是重新运行glue crawler . 您将在粘贴数据目录中获取一个与s3存储桶文件夹名称相同的新表 .
删除Crawler再次创建Crawler(在s3中只有一个csv文件不应该更多可用并运行爬虫) important note one CSV file 运行它我们可以查看Athena中的记录 .
我确实提供了S3文件夹路径而不是文件名,仍然无法让Athena返回任何记录(“返回零记录”,“数据扫描:0KB”) .
原来问题是输入文件(我的旋转日志文件自动从Elastic Beanstalk上传到S3)以下划线( _ )开头,例如 _var_log_nginx_rotated_access.log1534237261.gz !显然这是不允许的 .
_
_var_log_nginx_rotated_access.log1534237261.gz
4 回答
我遇到了同样的问题 . 您需要将文件夹路径而不是真实文件名提供给爬网程序并运行它 . 我尝试将文件夹名称提供给爬虫并且它有效 . 希望这可以帮助 . 让我知道 . 谢谢,
我遇到了同样的问题 . 尝试为s3存储桶中的单个表创建单独的文件夹,而不是重新运行glue crawler . 您将在粘贴数据目录中获取一个与s3存储桶文件夹名称相同的新表 .
删除Crawler再次创建Crawler(在s3中只有一个csv文件不应该更多可用并运行爬虫) important note one CSV file 运行它我们可以查看Athena中的记录 .
我确实提供了S3文件夹路径而不是文件名,仍然无法让Athena返回任何记录(“返回零记录”,“数据扫描:0KB”) .
原来问题是输入文件(我的旋转日志文件自动从Elastic Beanstalk上传到S3)以下划线(
_
)开头,例如_var_log_nginx_rotated_access.log1534237261.gz
!显然这是不允许的 .