-
6 votesanswersviews
AWS Athena(PrestoDB)DISTINCT SQL查询中的结果是否重复?
我在S3上有一堆文件,只包含MD5,每行一个 . 我创建了一个AWS Athena表来对MD5运行重复数据删除查询 . 在这些文件和表格中总共有数亿个MD5 . 雅典娜表创建查询: CREATE EXTERNAL TABLE IF NOT EXISTS database.md5s ( `md5` string ) ROW FORMAT SERDE 'org.apache.hadoop.hiv... -
2 votesanswersviews
AWS Athena OFFSET支持
我想知道AWS Athena是否支持OFFSET . 对于mysql,以下查询正在运行但在athena中它给了我错误 . 任何例子都会有所帮助 . 从员工中选择*,其中empSal> 3000 LIMIT 300 OFFSET 20 -
0 votesanswersviews
带有时间戳的AWS Athena SQL查询错误
我在AWS Athena中有一个表,其列名为'servertime',数据类型为timestamp . 我运行这样的查询 - select * from table_name where servertime between '2018-04-01 00:00:00' and '2018-04-05 23:59:59'; 它给了我这个错误: Your query has the following... -
2 votesanswersviews
亚马逊雅典娜的分区表
我正在尝试按年,月和日对亚马逊雅典娜查询的数据进行分区 . 但是,当我尝试从分区数据查询时,我无法获取任何记录 . 我按照blog帖子中的说明进行操作 . 创建表查询: CREATE external TABLE mvc_test2 ( ROLE struct<Scope: string, Id: string>, ACCOUNT struct<ClientId: string,... -
1 votesanswersviews
Presto不使用带有mongodb查询的索引
我已经设置了一个具有一个Coordinator和一个Worker节点的Presto(0.191)实例,并希望使用来自mysql和mongodb等几个来源的数据进行一些数据分析 . Wenn我在"the_date"上对mongodb表"earnings" Presto seems to do a full table scan and not have th... -
2 votesanswersviews
AWS Glue Athena / Hive是否可以选择替换复杂的SQL查询?
我一直在使用AWS Athena在多个表中查询存储在S3上的分析数据 . 在一段时间内,我提出了2-3个复杂的SQL查询(涉及多个连接)来提取相关数据 . 因为,Athena用于临时查询(而不是预定义的查询),除了处理几TB和30分钟超时的高昂成本外,我正在寻找替代方案 . 我能想到的两个选择是: 使用基于Presto的EMR集群并运行现有查询 . 它消除了30分钟的限制,并且(可能)降低了成... -
0 votesanswersviews
CAST在Presto的日期到下一个计数
我想用JSON文件查询Athena . 我将creation_date与id匹配,因为我希望得到一个热图,在Y轴上我有月份,在X轴上有一天,我计算内部的id . 我创建了一个包含2列的表:creation_date date,id int . 接下来我查询以下代码: SELECT CAST(creation_date as DATE) as ad_creation, COUNT(i... -
1 votesanswersviews
Amazon athena无法读取S3 JSON对象文件,而Athena select查询返回JSON键列的空结果集
我在Athena创建了一个具有以下结构的 table CREATE EXTERNAL TABLE s3_json_objects ( devId string, type string, status string ) ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe' WITH SERDEPROPERTIES ( '... -
1 votesanswersviews
无法连接到Presto的Cassandra
我已经设置了Cassandra,并且我创建了一个键空间('mykeyspace')和一个表格 . 我启动了Cassandra作为服务,在presto安装文件中添加了这样的cassandra.properties文件: connector.name=cassandra cassandra.contact-points=localhost cassandra.native-protocol-port=... -
0 votesanswersviews
使用SQL Query为wifi日志用户事件创建会话ID
朋友们, 该场景与wifi控制器日志文件有关,其中用户活动被跟踪,就像用户“加入”,“进入”,断开“和”离开wifi网络一样 . 我已经清理并在表格中上传结构化数据 . 我想在用户级别为他/她的活动创建会话ID . 确定一个会话可以按事件“加入”和“离开”之间的所有事件进行分组 . 我附上了示例数据以便更好地理解 . 一些有助于创建会话ID的指针: 可以通过"joins"事... -
0 votesanswersviews
sql查询中的base64子字符串
我在aws中使用athena来解析一堆日志文件 . 查询的标准是base64编码的子字符串 . ( “ADID = eW0vMU0zeGE5NUE4NjcyLzYzNDgvalhkVGhkZmxfODQwS182NDB4MzYwLm1wNAo =%somejunk”) 据我所知,这个查询没有问题 . SELECT count(*) FROM reporting."logs" ... -
0 votesanswersviews
SQL根据比较属性对用户进行分组
最终,我需要的是能够根据不同的项目比较不同的团队表现 . 我有两个数据集 . 第一个是user_table,其中包含迄今为止所有人的摘要 . 示例如下: user_id date_added attribute_1 attribute_2 attribute_3 ... 1 2018-01-01 a ... -
0 votesanswersviews
Athena中SQL Presto查询的优化
我正在开发一个庞大的数据库,每天生成的数据超过50GB . 我通过SageMaker查询Athena,我有5GB的可用空间 . The data format which I am using is JSON . 在过去的几天里,我一直在查询特定日期的数据,但是在热图上可视化这些数据并不清楚 . 我想尝试查询整个月 . 我的表有2列 creation_date (例如2018-01-30 2... -
0 votesanswersviews
当底层JSON文件中的时间戳格式发生更改时,在Athena中查询时间戳数据
我正在从存储在S3中的JSON文件中查询AWS Athena中的数据 . 我已经使用AWS Glue将所有JSON文件加载到Athena中,到目前为止它一直运行良好 . 但是,时间戳格式在JSON文件中已更改 2018-03-23 15:00:30.998 至 2018-08-29T07:59:50.568Z 所以表最终会有这样的条目 2018-08-29T07:59:42.803Z 2018... -
0 votesanswersviews
我可以使用Presto创建Hive Metastore吗?
基本问题:我可以使用Presto作为我的Hive Metastore的基础吗? 我正在尝试在亚马逊aws上安装presto和hive,我在创建Hive Metastore时遇到了麻烦 . 除了未能连接到Metastore之外,Presto似乎已安装并正常工作 . 问题是当我运行Hive时,它无法创建一个Metastore . 当我运行Hive时,我收到以下错误: Exception in thre...