-
3 votesanswersviews
使用Python和pyathenajdbc与Athena连接
我正在尝试使用python连接到AWS Athena . 我正在尝试使用pyathenajdbc来完成此任务 . 我遇到的问题是获得连接 . 当我运行下面的代码时,我收到一条错误消息,指出它无法找到AthenaDriver . (java.lang.RuntimeException:未找到类com.amazonaws.athena.jdbc.AthenaDriver) . 我确实从AWS下载了这... -
0 votesanswersviews
如何在S3中查询异构JSON数据?
我们有一个包含大约一百万个JSON文件的Amazon S3存储桶,每个文件压缩大约500KB . AWS Kinesis Firehose将这些文件放在那里,每5分钟写一个新文件 . 这些文件都描述了类似的事件,因此在逻辑上都是相同的,并且都是有效的JSON,但具有不同的结构/层次结构 . 它们的格式和行结尾也是不一致的:一些对象在一行上,一些在多行上,有时一个对象的末尾与另一个对象的开头在同一... -
1 votesanswersviews
如何使用AWS Glue将许多CSV文件转换为Parquet
我使用AWS S3,Glue和Athena进行以下设置: S3 - >胶水 - >雅典娜 我的原始数据作为CSV文件存储在S3上 . 我正在使用Glue for ETL,而我正在使用Athena来查询数据 . 由于我正在使用Athena,我想将CSV文件转换为Parquet . 我正在使用AWS Glue立即执行此操作 . 这是我正在使用的当前流程: 运行Crawler以读取CS... -
2 votesanswersviews
AWS Glue Crawler创建分区和文件表
我有一个非常基本的s3设置,我想使用Athena查询 . 数据全部存储在一个存储桶中,组织为年/月/日/小时文件夹 . |--data | |--2018 | | |--01 | | | |--01 | | | | |--01 | | | | | |--file1.json | | | | | |--file2.jso... -
1 votesanswersviews
如何通过boto3访问eu-west-1中Athena表的Athena / Glue目录?
我需要编写一份使用Athena数据目录中数据的工作 . 我正在使用Python和boto3 . 由于Glue已经发布,我似乎通过Glue API使用以下代码访问我的数据目录: import boto3 from pprint import pprint glue = boto3.client('glue', region_name='us-east-1') response = glue.ge... -
0 votesanswersviews
数据未插入到aws athena中的正确列中
我有一个日志文件,其中包含以下格式的数据 1.1.someData.10.4 1.3.someData.true 我创建了一个表并使用了GrokSerDe, CREATE EXTERNAL TABLE my_table (col_1 string,col_2 string)ROW FORMAT SERDE 'com.amazonaws.glue.serde.GrokSerDe' WITH SER... -
5 votesanswersviews
在AWS Glue pySpark脚本中使用SQL
我想使用AWS Glue将一些csv数据转换为orc .我创建的ETL作业生成了以下PySpark脚本: import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue.cont... -
2 votesanswersviews
亚马逊雅典娜的HIVE_INVALID_METADATA
如何在Amazon Athena中解决以下错误? HIVE_INVALID_METADATA:com.facebook.presto.hive.DataCatalogException:错误::期望在'struct <x-amz-request-id:string的位置8,action:string,label:string,category:string,when:string >... -
1 votesanswersviews
在使用AWS Glue Catalog生成的表上查询AWS Athena时,“不支持类型LIST”
我编写了一个ETL作业,将一堆JSON文件转换为存储在S3上的时间分区镶木地板文件(对象) . 我没有在AWS Athena上手动创建表并使用Athena数据目录,而是决定使用AWS Glue数据存储,它对已转换的镶木地板文件进行爬网并生成似乎正确的模式 . 它是: CREATE EXTERNAL TABLE `table_fd2f388f79ee6`( `field1` string, ... -
0 votesanswersviews
使用AWS Glue,S3和Athena的侧宽搜索引擎
我们有~30个微服务,包括论坛数据,用户数据,票据数据,账单数据,活动数据,通知等等 . 这些数据位于独立的数据库中 . 最终用户希望搜索相关数据,这将有助于他们获取所需信息,从而改善了产品的用户体验 . 我们想知道是否可以使用AWS Glue,S3,Athena / S3 select来构建搜索引擎,而不是使用弹性搜索和构建复杂的搜索系统 . 多个Glue作业将定期查询具有用户数据的表和列的db... -
6 votesanswersviews
AWS Athena(PrestoDB)DISTINCT SQL查询中的结果是否重复?
我在S3上有一堆文件,只包含MD5,每行一个 . 我创建了一个AWS Athena表来对MD5运行重复数据删除查询 . 在这些文件和表格中总共有数亿个MD5 . 雅典娜表创建查询: CREATE EXTERNAL TABLE IF NOT EXISTS database.md5s ( `md5` string ) ROW FORMAT SERDE 'org.apache.hadoop.hiv... -
2 votesanswersviews
AWS Athena OFFSET支持
我想知道AWS Athena是否支持OFFSET . 对于mysql,以下查询正在运行但在athena中它给了我错误 . 任何例子都会有所帮助 . 从员工中选择*,其中empSal> 3000 LIMIT 300 OFFSET 20 -
0 votesanswersviews
带有时间戳的AWS Athena SQL查询错误
我在AWS Athena中有一个表,其列名为'servertime',数据类型为timestamp . 我运行这样的查询 - select * from table_name where servertime between '2018-04-01 00:00:00' and '2018-04-05 23:59:59'; 它给了我这个错误: Your query has the following... -
2 votesanswersviews
亚马逊雅典娜的分区表
我正在尝试按年,月和日对亚马逊雅典娜查询的数据进行分区 . 但是,当我尝试从分区数据查询时,我无法获取任何记录 . 我按照blog帖子中的说明进行操作 . 创建表查询: CREATE external TABLE mvc_test2 ( ROLE struct<Scope: string, Id: string>, ACCOUNT struct<ClientId: string,... -
0 votesanswersviews
AWS Athena查询挂起并重新读取大量查询大小的数据
我在Athena中设置了一个新的日志表,如下图所示,其中Athena位于 BucketName/ 之上 我有一个运行良好的Athena系统,基于相同的数据,但没有下面列出的子目录结构 . 现在使用这个新的子目录结构,当我执行 select * from table_name limit 100 时,我可以看到数据正确显示但是当我执行 count(x) by week 这样的查询时,查询会挂起 . ... -
2 votesanswersviews
AWS Glue Athena / Hive是否可以选择替换复杂的SQL查询?
我一直在使用AWS Athena在多个表中查询存储在S3上的分析数据 . 在一段时间内,我提出了2-3个复杂的SQL查询(涉及多个连接)来提取相关数据 . 因为,Athena用于临时查询(而不是预定义的查询),除了处理几TB和30分钟超时的高昂成本外,我正在寻找替代方案 . 我能想到的两个选择是: 使用基于Presto的EMR集群并运行现有查询 . 它消除了30分钟的限制,并且(可能)降低了成... -
0 votesanswersviews
AWS Athena将result.json输出到s3 - CREATE TABLE AS / INSERT INTO SELECT?
无论如何可以将AWS Athena查询的结果写入s3存储桶中的results.json吗? 我的第一个想法是使用 INSERT INTO SELECT ID, COUNT(*) ... 或 INSERT OVERWRITE ,但根据Amazon Athena DDL Statements和tdhoppers Blogpost似乎不支持 无论如何可以使用AWS Athena的新数据 CREATE... -
0 votesanswersviews
在Glue表(RDS)上运行AWS Athena查询时的HIVE_UNKNOWN_ERROR
在针对从RDS数据库创建的Glue表运行Athena查询时出现错误: HIVE_UNKNOWN_ERROR:无法创建输入格式 表使用爬网程序创建 . 表格在Glue界面中正确显示: 但是,它们不会显示在数据库下的Athena界面中 . 它说:“所选数据库没有表格” 使用使用S3文件创建的数据库时,我没有看到此行为 . 也许这与错误有关 . 有人有想法吗? -
1 votesanswersviews
Athena从AWS DMS CSV文件中读取
我将我的DMS配置为从MySQL数据库读取并通过复制将其数据迁移到S3 . 一切似乎都运行良好,它为所有数据创建大的CSV文件,并开始使用增量创建较小的CSV文件 . 问题是,当我使用AWS Glue Crawlers读取这些CSV文件时,它们似乎没有获得这些增量,甚至更糟糕的是,它们似乎只获得了增量,忽略了大的CSV文件 . 我知道这里有类似的帖子:Athena can't resolve CS... -
2 votesanswersviews
亚马逊雅典娜不使用胶水目录
我使用aws glue crawler创建了一个带有表的数据库 . 在athena,我无法选择该数据库/表进行查询 . 我认为问题可以在服务区域位置 . 我的设置是下一个: s3 csv文件位于爱尔兰 aws glue crawler创建时没有指向其位置的任何选项,但可通过下一个URL访问 - https://console.aws.amazon.com/glue/home?region... -
1 votesanswersviews
Athena无法从AWS DMS解析CSV文件
我已配置DMS以连续将数据从MySQL RDS复制到S3 . 这会创建两种类型的CSV文件:完整加载和更改数据捕获(CDC) . 根据我的测试,我有以下文件: testdb/addresses/LOAD001.csv.gz testdb/addresses/20180405_205807186_csv.gz 在DMS正常运行后,我触发AWS Glue Crawler为包含MySQL Replic... -
1 votesanswersviews
如何在通过AWS Athena查询结果进行分页时跳过 Headers
我有一个Angular 6应用程序,它从AWS Lambda请求数据 . 数据本身存储在Glue数据库中,并使用AWS Athena进行查询 . AWS Glue数据库设置了 skip.header.line.count=1 选项,当我在控制台中运行Athena查询时,我得到一个没有 Headers 的响应 . 当我尝试使用 boto3 检索数据时,会发生此问题 . 我有一个运行查询的函数,然后... -
2 votesanswersviews
在AWS上通过API在胶合表上添加分区?
我有一个不断填充新数据的S3存储桶,我使用Athena和Glue来查询数据,问题是如果胶水不知道创建了新分区它不会搜索它需要搜索那里 . 如果我每次需要新分区时都要进行API调用来运行Glue爬虫,那么最好的解决办法是告诉胶水添加一个新分区,即在其属性表中创建一个新分区 . 我查看了AWS文档,但没有运气,我正在使用Java与AWS . 有帮助吗? -
0 votesanswersviews
使用AWS athena从avro文件中读取数组不会产生任何结果和未知错误
我有几个存储在S3存储桶中的avro文件,并使用AvroSerde通过AWS Glue对其进行爬网,完美地粘贴索引文件 . 当我使用AWS athena查询表时,如下所示: select * from mytable 我按预期获得所有结果,"values"列显示为[23.4,345.6] . 但是,当我尝试选择“values”列(或尝试使用任何数组函数)时,我没有得到任何结果,... -
4 votesanswersviews
带有一些JSON文件的S3存储桶上的AWS Athena
尝试使用AWS Athena . 我试图从S3存储桶创建一个具有如下文件结构的表: my-bucket/ my-bucket/group1/ my-bucket/group1/entry1/ my-bucket/group1/entry1/data.bin my-bucket/group1/entry1/metadata my-bucket/group1/entry2/ my-bucket/gro... -
11 votesanswersviews
在AWS Athena中将多个元素存储在json文件中
我有一些存储在S3存储桶中的json文件,其中每个文件都有多个结构相同的元素 . 例如, [{"eventId":"1","eventName":"INSERT","eventVersion":"1.0","eventSource":"aws:dyn... -
1 votesanswersviews
首次使用查询后,AWS Athena csv元数据分隔符已更改
我想查询s3 csv文件到athena . 源csv文件desc :(分隔符'|') system information val1|val2|val3|val4|val5| 基于我在athena创建表: Create external table dbname.fromcsv ( col1 string, col2 string, col3 string, col4 string, col5 ... -
1 votesanswersviews
如何更改Glue Crawler创建的自动检测分区的列名?
我有一个斗,用作Kinesis Firehose流的目的地 . Firehose使用 yyyy/mm/dd/HH 格式自动在该存储桶上创建基于日期的前缀 . 然后我创建了一个爬虫程序,它将搜索数据到这个存储桶并配置如下: 运行爬网程序后,它会创建一个包含以下模式的表: | # | Column name | Data type | Key | | --- | ----... -
1 votesanswersviews
在查询Amazon Athena中创建的表时获取HIVE_CURSOR_ERROR
我在查询Amazon Athena中创建的表时遇到以下错误 . Error HIVE_CURSOR_ERROR:行不是有效的JSON对象 - JSONException:JSONObject文本必须在2处以'}'结尾 我正在使用的示例文件和创建表的查询如下所示 . 通过以下查询成功创建表,但是当我从表中获取结果时,我收到错误 . 请提供宝贵的建议 . Note Sample Data Crea... -
1 votesanswersviews
解析嵌套JSON时,Amazon Athena会发出内部错误
我正在尝试查询此JSON文件(出于调试目的,它只包含一行!): { "appVersion": null, "sessionIndex": "3", "psdkLang": null, "lamdbaAwsRequestId": "bb04330c-e1e7-4bbd-97...