Java 学习之路

0 votes

answers

views

列的数据类型在胶水数据目录和getCatalogSource函数中有所不同

我创建了一个粘合爬虫来读取apache访问日志 . 下面是表定义，爬虫在Glue数据目录中创建它 . 我能够从Athena获得以下DDL语句 . CREATE EXTERNAL TABLE crawler_access_log( .. Other column names timestamp string COMMENT 'from deserializer' ) ROW FORMAT SERDE...

amazon-web-services apache-spark aws-glue glue
0 votes

answers

views

在AWS Glue中解析动态数据帧的模式

我在AWS胶水中有一个动态数据框，我使用下面的代码创建 . val rawDynamicDataFrame = glueContext.getCatalogSource(database = rawDBName, tableName = rawTableName, redshiftTmpDir = "", transformationContext = "rawD...

amazon-web-services aws-glue glue
0 votes

answers

views

在AWS Glue中附加负载

我需要对S3存储桶执行追加加载 . 每天都有新的.gz文件被转储到S3位置，并且粘合爬虫会读取数据并在数据目录中更新它 . Scala AWS Glue作业运行且仅过滤当天的数据 . 根据某些规则变换上述过滤数据，并创建分区动态数据帧（即年，月，日）级别 . 现在，我需要将此动态数据帧写入S3存储桶，该存储桶具有所有前一天的分区 . 实际上我只需要在S3存储桶中只写一个分区 . 目...

apache-spark aws-glue glue aws-glue-data-catalog

热门问题