我正在使用AWS Glue来创建元数据表 .
Aws glue Crawler数据存储路径:s3:// bucket-name /
S3中的铲斗结构就像
├── bucket-name
│ ├── pt=2011-10-11-01
│ │ ├── file1
| | ├── file2
│ ├── pt=2011-10-11-02
│ │ ├── file1
│ ├── pt=2011-10-10-01
│ │ ├── file1
│ ├── pt=2011-10-11-10
│ │ ├── file1
为此aws爬虫创建4个表 .
我的问题是为什么aws glue crawler没有检测到分区?
3 回答
答案是:
在合并模式之前Aws粘合爬虫,首先找到模式的相似性索引 . 如果相似性指数超过70%,则以其他方式合并创建新表 .
需要抓取其下包含所有分区的父文件夹,否则抓取工具会将每个分区视为单独的表 . 例如,创建这样的
然后抓取s3:// bucket / table /
尝试使用像
s3://bucket-name/<table_name>/pt=<date_time>/file
这样的表路径 . 如果之后Crawler将每个分区视为单独的表,请尝试手动创建表并重新运行Crawler以带来分区 .