-
0 votesanswersviews
列的数据类型在胶水数据目录和getCatalogSource函数中有所不同
我创建了一个粘合爬虫来读取apache访问日志 . 下面是表定义,爬虫在Glue数据目录中创建它 . 我能够从Athena获得以下DDL语句 . CREATE EXTERNAL TABLE crawler_access_log( .. Other column names timestamp string COMMENT 'from deserializer' ) ROW FORMAT SERDE... -
0 votesanswersviews
在AWS Glue中解析动态数据帧的模式
我在AWS胶水中有一个动态数据框,我使用下面的代码创建 . val rawDynamicDataFrame = glueContext.getCatalogSource(database = rawDBName, tableName = rawTableName, redshiftTmpDir = "", transformationContext = "rawD... -
0 votesanswersviews
在AWS Glue中附加负载
我需要对S3存储桶执行追加加载 . 每天都有新的.gz文件被转储到S3位置,并且粘合爬虫会读取数据并在数据目录中更新它 . Scala AWS Glue作业运行且仅过滤当天的数据 . 根据某些规则变换上述过滤数据,并创建分区动态数据帧(即年,月,日)级别 . 现在,我需要将此动态数据帧写入S3存储桶,该存储桶具有所有前一天的分区 . 实际上我只需要在S3存储桶中只写一个分区 . 目...