-
4 votesanswersviews
AWS Glue:如何使用不同的模式处理嵌套的JSON
Objective: 我们希望使用AWS Glue数据目录为驻留在S3存储桶中的JSON数据创建单个表,然后我们将通过Redshift Spectrum进行查询和解析 . Background: JSON数据来自DynamoDB Streams,并且是深层嵌套的 . 第一级JSON具有一组一致的元素:Keys,NewImage,OldImage,SequenceNumber,Approximat... -
0 votesanswersviews
Glue要爬网的混合模式事件的建议JSON结构
我有一些JSON包含不同的模式,具有不同的模式,如下所示: { "events": [{ "key": "an_action", "properties": { "user": "111111111111", ... -
1 votesanswersviews
使用Python中的psycopg2获取插入行的自动id到Redshift表中
我正在使用 psycopg2 库从 Python 2.7 将一条记录插入到 Amazon Redshift 表中,我想取回插入行的自动生成主ID . 我尝试过常用的方法,我可以在这里或使用谷歌搜索的其他网站找到,例如: conn=psycopg2.connect(conn_str) conn.autocommit = True sql = "INSERT INTO schema.tab... -
1 votesanswersviews
获取[Amazon](500150)在Spark / Redshift特定查询中由对等方重置连接
我在集群模式下使用databricks spark-redshift 2.0.1在emr上运行spark 2.0.0并且我的工作可以正常使用一些简单的redshift查询 val easyQueryWorks = s""" |select |s.session_id, s.user_id, |e.ex_id, e.pre_id ... -
8 votesanswersviews
Redshift和Postgres JDBC驱动程序都拦截了jdbc:// postgresql连接字符串
我有一个问题,我不太确定如何解决:我有一个Web应用程序(打包为战争),客户端可以配置他们希望指向哪个数据库 . 我们支持PostgreSQL和Redshift(以及其他) . JDBC4驱动程序是自动加载的,这很好 . 这是问题所在: 似乎Redshift JDBC驱动程序将在PostgreSQL之前响应jdbc:// postgresql连接字符串 . 连接到PostgreSQL数据库时,这... -
0 votesanswersviews
Amazon 500150:无法连接到Redshift群集
我按照here上提到的所有步骤连接到 Redshift 到 Workbench J . 我没有使用 SSH 连接,所以单独留下了 SSH 设置 . 当我选择 Redshift 后选择安全性时,我看到: 您的帐户不支持该地区的EC2-Classic平台 . 群集安全组仅在支持EC2-Classic平台时可用 . 而是使用VPC安全组来控制对群集的访问 . 转到EC2控制台以查看您的VPC安全组 ... -
0 votesanswersviews
火花2.1.1读取/写入EMR上的红移错误
尝试从/向redshift读取/写入(s3中的数据) . 但访问数据框时出现奇怪的错误 . 我可以看到数据框正在创建,它能够访问数据,因为它输出表的列名 scala> :require /home/hadoop/spark-redshift_2.10-2.0.1.jar Added '/home/hadoop/spark-redshift_2.10-2.0.1.jar' to classpa... -
0 votesanswersviews
将多个胶水目录表导入到redshift表中
我在S3中有多个文件,我想将其导入Redshift . 复制的命令行给了我难以理解的错误 . 所以我去使用AWS Glue抓取工具将文件放入我的Glue目录中 . 然后我为Redshift创建了一个连接 . 我使用Glue Job将数据摄取到Redshift中 . 我能够将S3中的文件clicks_001.json中的数据转换为Redshift表单击 . 那很有效 . 但问题是我有1000个这样的... -
1 votesanswersviews
AWS Glue截断红移表
我创建了一个胶水作业,将数据从S3(csv文件)复制到Redshift . 它可以工作并填充所需的表格 . 但是,我需要在此过程中清除表,因为在完成该过程后,我将留下重复的记录 . 我正在寻找一种方法将此清除添加到Glue流程中 . 任何意见,将不胜感激 . 谢谢 . -
0 votesanswersviews
如何使用redshift谱在S3中查看数据目录表
我在aws glue中为我的数据库创建了外部模式 . 我可以看到表的列表,但我无法查看json数据 . redshift引发了我这个错误 . [Amazon](500310) Invalid operation: S3 Query Exception (Fetch) Details: ----------------------------------------------- erro... -
63 votesanswersviews
更改Amazon Redshift中的列数据类型
如何更改Amazon Redshift数据库中的列数据类型? 我无法在Redshift中更改列数据类型;有没有办法修改Amazon Redshift中的数据类型? -
4 votesanswersviews
从AWS Redshift到S3的AWS Glue ETL作业失败
我正在尝试使用AWS Glue服务向ETL提供从redshift到S3的一些数据 . Crawler成功运行并在数据目录中创建元表,但是当我运行ETL作业(由AWS生成)时,它在大约20分钟后显示“资源不可用”时失败 . 我看不到在Google Cloud中创建的AWS胶合日志或错误日志 . 当我尝试查看它时,它说“找不到日志流 . 找不到日志流jr_xxxxxxxxxx . 检查它是否正确创建... -
3 votesanswersviews
redshift连接的粘合作业:“无法找到合适的安全组”
我正在尝试设置AWS Glue作业并 Build 与Redshift的连接 . 当我将连接类型设置为Redshift时,我收到错误: “无法找到合适的安全组 . 将连接类型更改为JDBC并重试添加连接 . ” 按照here in these forums的说法,我为我的IAM帐户添加了角色 AWSGlueServiceRoleDefault 的权限: 然后我使用匹配的IAM角色 AWSGlu... -
1 votesanswersviews
AWS Glue:Redshift Upsert
在做了一些研究之后,我发现由于Redshift不支持merge / upsert,一些人正在使用登台表来更新/插入记录 . 由于Redshift也不支持程序(触发器等),是否有人建议他们如何自动化这个过程(lambda,数据管道等)? -
0 votesanswersviews
从AWS Glue升级到Amazon Redshift
据我所知,没有直接的UPSERT查询可以直接从Glue到Redshift执行 . 是否可以在胶水脚本本身中实现临时表概念? 所以我的期望是创建临时表,将其与目标表合并,最后删除它 . 可以在Glue脚本中实现吗? -
1 votesanswersviews
aws如何在redshift中粘贴作业上传几个表
是否可以使用AWS Glue作业在Redshift中加载多个表? 这些是我遵循的步骤 . 从S3抓取json并将数据转换为数据目录表 . 我创建了一个将在redshift中上传数据目录表的作业,但它只限制我为每个作业上传1个表 . 在作业属性中(添加作业),我选择的作业运行选项是:由AWS Glue生成的建议脚本 . 我不熟悉python,我是AWS Glue的新手 . 但是我需要上传... -
0 votesanswersviews
在AWS-GLUE中转换json并在Amazon Redshift中上传
我出面阅读这篇关于展平json文件并在redshift中上传的亚马逊文章 . https://aws.amazon.com/blogs/big-data/simplify-querying-nested-json-with-the-aws-glue-relationalize-transform/ 我的计划是转换json文件并在s3中上传,然后将文件再次抓取到aws-glue到数据目录,并将数据作... -
0 votesanswersviews
在AWS Aurora和Redshift之间使用二进制类型同步表
我一直在尝试一些AWS解决方案来在Aurora和Redshift之间同步数据 . 这样做的目的是删除我们的事务和分析数据库之间的数据管道的提取部分 . 我尝试了什么: AWS Data Pipeline . 我认为这很快就会终结,因为与Glue和DMS相比,界面和功能似乎过时了 . 数据管道也不兼容Terraform . AWS DMS . 我有这个设置但没有找到将 LONGBLOB 类型... -
0 votesanswersviews
如何在S3中查询异构JSON数据?
我们有一个包含大约一百万个JSON文件的Amazon S3存储桶,每个文件压缩大约500KB . AWS Kinesis Firehose将这些文件放在那里,每5分钟写一个新文件 . 这些文件都描述了类似的事件,因此在逻辑上都是相同的,并且都是有效的JSON,但具有不同的结构/层次结构 . 它们的格式和行结尾也是不一致的:一些对象在一行上,一些在多行上,有时一个对象的末尾与另一个对象的开头在同一... -
1 votesanswersviews
AWS在VPC中访问Redshift
我正在尝试使用AWS Glue将数据从Redshift实例(在VPC中)ETL转换为S3存储桶 . 为此,我使用Redshift创建了一个JDBC连接 . 爬网程序成功地将架构信息从Redshift提取到数据目录 . 但是当我运行ETL作业时,它无法获取数据并说“资源不可用” 我是否需要为Glue配置NAT以连接到Redshift? (目前它没有NAT) 即使没有NAT,爬虫如何能够从Re... -
1 votesanswersviews
AWS Glue JDBC Crawler - 关系不存在
我正在使用AWS Glue并使用爬虫来反映我的Redshift集群中特定模式的表,以使我的Glue Jobs可以访问这些数据 . 这个爬虫已经工作了一个月或更长时间,但现在突然间我收到以下错误: Error crawling database reporting: SQLException: SQLState: 42P01 Error Code: 500310 Message: [Amazon](... -
-1 votesanswersviews
在将数据存储在Redshift中之前,我应该使用哪些AWS技术来实时进行轻量级处理?
我想创建一些HTTP点,移动客户端,服务器和物联网设备将发布数据 . 我可能需要对事件进行预处理并对其进行操作 . 最终,我想使用Domo,Cloud Business Intelligence |访问所有原始数据并进行查询Chartio或Tableau . 我需要了解以下架构的不同之处和优势: AWS API管理Lambda Redshift:我可以创建一个HTTP endpoints 和一... -
0 votesanswersviews
Amazon Redshift COPY始终返回S3ServiceException:Access Denied,Status 403
我真的在努力学习如何使用COPY命令从Amazon S3存储桶到Redshift进行数据传输 . 到目前为止,我创建了一个IAM用户并分配了“AmazonS3ReadOnlyAccess”策略 . 但是当我调用COPY命令时,总会返回Access Denied Error . 从's3://s3.ap-northeast-2.amazonaws.com/mybucket/myobject'凭证'... -
4 votesanswersviews
从Amazon S3到Redshift / Redshift解决方案的数据导入速度
有谁知道从Amazon S3到Redshift的复制速度有多快? 我只想每天使用RedShift大约一个小时,以便在Tabelau报告上运行更新 . 正在运行的查询始终位于同一个数据库中,但我需要每晚运行它们以记录当天发布的新数据 . 我不想让一个集群全天候运行一天只能使用一小时,但我能看到这样做的唯一方法是每晚将整个数据库导入Redshift(我认为你不能暂停或暂停群集 . 我不知道复制速度是多... -
34 votesanswersviews
亚马逊红移:批量插入与来自s3的COPYing
我有一个红色群集,我用于一些分析应用程序 . 我有传入的数据,我想添加到 clicks 表 . 让's say I have ~10 new '点击'我想要存储的每一秒 . 如果可能,我希望我的数据尽快在红移中可用 . 根据我的理解,由于柱状存储,插入性能很差,因此您必须按批次插入 . 我的工作流程是将点击数存储在redis中,每分钟,我都会将redis中的~600次点击作为批量插入红色 . 我必... -
6 votesanswersviews
如何实时加载到Amazon Redshift?
我们正在评估Amazon Redshift的实时数据仓库 . 数据将通过Java服务进行流式处理和处理,并应存储在数据库中 . 我们逐行(实时)处理,每个事务只插入一行 . What is best practice for real time data loading to Amazon Redshift? 我们应该使用JDBC并执行 INSERT INTO 语句,还是尝试使用Kinesis F... -
0 votesanswersviews
Redshift中的增量加载
我们目前正致力于将数据加载到Redshift中 . 我们这里有不同的场景 . 如果OLTP数据库是驻留在本地的SQL Server,那么我们可以考虑像Attunity这样的工具,它可以帮助通过S3将数据加载到Redshift . CDC中的关联性很聪明,可识别读取事务日志的更改,并可相应地对目标应用更改 . 但是这种工具在ETL过程中应用转换逻辑很差 . Attunity不是SSIS或ODI的... -
0 votesanswersviews
复制错误从S3加载Amazon Redshift
对AWS和RedShift来说很新,所以请慢点 . 我正在试图弄清楚如何将我上传到S3的csv文件中的数据加载到Redshift集群中 . 我已经设法创建了所需的表,但是当我尝试运行Copy命令将S3中的数据加载到表中时(使用SQLWorkbench),我收到以下错误; 无效操作:S3ServiceException:您尝试访问的存储区必须使用指定的 endpoints 进行寻址 . 请将以后的... -
1 votesanswersviews
使用AWS DynamoDB或Redshift存储分析数据
我想问一下哪种服务最适合我 . 例如,一个类似Facebook的移动应用程序,我需要跟踪用户的每个动作,例如访问过的页面或点击的链接 . 我正在考虑使用DynamoDB创建多个表来跟踪每个不同的活动 . 当我运行我的分析应用程序时,它将查询每个表的所有数据(相似的哈希键但不同的范围键,以便我可以查询所有数据)并在应用程序中计算结果 . 因此,主要成本是每个表的读取吞吐量很容易达到250读/秒(〜$... -
1 votesanswersviews
仅备份从DynamoDB到S3的新记录并将其加载到RedShift中
我看到类似的问题已经存在: Backup AWS Dynamodb to S3 Copying only new records from AWS DynamoDB to AWS Redshift Loading data from Amazon dynamoDB to redshift 不幸的是,他们中的大多数已经过时(因为亚马逊引入了新的服务)和/或有不同的答案 . 在我的情况下,我有两个数据...