首页 文章

Aws Glue不检测分区并在aws胶水目录中创建10000个表

提问于
浏览
3

我正在使用AWS Glue来创建元数据表 .

Aws glue Crawler数据存储路径:s3:// bucket-name /

S3中的铲斗结构就像

├── bucket-name        
│   ├── pt=2011-10-11-01     
│   │   ├── file1                    
|   |   ├── file2                                        
│   ├── pt=2011-10-11-02               
│   │   ├── file1          
│   ├── pt=2011-10-10-01           
│   │   ├── file1           
│   ├── pt=2011-10-11-10              
│   │   ├── file1

为此aws爬虫创建4个表 .

我的问题是为什么aws glue crawler没有检测到分区?

3 回答

  • 0

    答案是:

    在合并模式之前Aws粘合爬虫,首先找到模式的相似性索引 . 如果相似性指数超过70%,则以其他方式合并创建新表 .

  • 1

    需要抓取其下包含所有分区的父文件夹,否则抓取工具会将每个分区视为单独的表 . 例如,创建这样的

    s3://bucket/table/part=1
    s3://bucket/table/part=2
    s3://bucket/table/part=3
    

    然后抓取s3:// bucket / table /

  • 1

    尝试使用像 s3://bucket-name/<table_name>/pt=<date_time>/file 这样的表路径 . 如果之后Crawler将每个分区视为单独的表,请尝试手动创建表并重新运行Crawler以带来分区 .

相关问题