Aws Glue不检测分区并在aws胶水目录中创建10000个表-Java 学习之路

我正在使用AWS Glue来创建元数据表 .

Aws glue Crawler数据存储路径：s3：// bucket-name /

S3中的铲斗结构就像

├── bucket-name        
│   ├── pt=2011-10-11-01     
│   │   ├── file1                    
|   |   ├── file2                                        
│   ├── pt=2011-10-11-02               
│   │   ├── file1          
│   ├── pt=2011-10-10-01           
│   │   ├── file1           
│   ├── pt=2011-10-11-10              
│   │   ├── file1

为此aws爬虫创建4个表 .

我的问题是为什么aws glue crawler没有检测到分区？

3 回答

0

答案是：

在合并模式之前Aws粘合爬虫，首先找到模式的相似性索引 . 如果相似性指数超过70％，则以其他方式合并创建新表 .

回复于 2024-05-05T12:04:54+08:00
1
需要抓取其下包含所有分区的父文件夹，否则抓取工具会将每个分区视为单独的表 . 例如，创建这样的
```
s3://bucket/table/part=1
s3://bucket/table/part=2
s3://bucket/table/part=3
```
然后抓取s3：// bucket / table /
回复于 2024-05-05T12:04:54+08:00
1

尝试使用像 s3://bucket-name/<table_name>/pt=<date_time>/file 这样的表路径 . 如果之后Crawler将每个分区视为单独的表，请尝试手动创建表并重新运行Crawler以带来分区 .

回复于 2024-05-05T12:04:54+08:00

Aws Glue不检测分区并在aws胶水目录中创建10000个表

3 回答

相关问题