首页 文章

AWS GLUE数据导入问题

提问于
浏览
0

有一个excel文件testFile.xlsx,它如下所示:

ID  ENTITY  STATE
1   Montgomery County Muni Utility Dist No.39   TX
2   State of Washington WA
3   Waterloo CUSD 5 IL
4   Staunton CUSD 6 IL
5   Berea City SD   OH
6   City of Coshocton   OH

现在,我想将数据导入AWS GLUE数据库,已创建AWS GLUE中的爬网程序,运行爬网程序后,AWS GLUE数据库中的表中没有任何内容 . 我想这应该是AWS GLUE中的分类器问题,但是不知道如何创建一个合适的分类器来成功地将excel文件中的数据导入AWS GLUE数据库 . 感谢您的任何答案或建议 .

2 回答

  • 4

    我担心Glue Crawlers没有MS Excel文件的分类器(.xlsx或.xls) . Here您可以找到支持的格式和内置分类器列表 . 在导出到AWS Glue Catalog之前,最好将文件转换为CSV或其他一些支持的格式 .

  • 0

    当你说“在运行爬虫之后AWS Glue数据库的表中没有任何内容”你是说在Glue UI中,你点击数据库,然后是数据库名称,然后点击“xxx中的表”,什么也没有出现?

    问题的第二部分似乎表明您正在寻找Glue将文件的实际数据行导入Glue数据库 . 那是对的吗? Glue数据库不存储数据行,只存储有关文件的架构信息 . 您将需要使用Glue ETL作业或Athena或hive来实际将数据从数据文件移动到类似mySQL的内容 .

相关问题