-
0 votesanswersviews
Spark Sql - 插入外部Hive表错误
我试图通过spark sql将数据插入外部配置单元表 . 我的蜂巢表是通过一个列进行的 . 创建外部配置单元表的查询是这样的 create external table tab1 ( col1 type,col2 type,col3 type) clustered by (col1,col2) sorted by (col1) into 8 buckets stored as parquet 现... -
2 votesanswersviews
AWS Glue Crawler覆盖自定义表属性
我有一个由AWS Glue管理的数据目录,以及我的开发人员在我们的S3存储桶中使用新表或分区进行的任何更新,我们每天都使用爬虫来更新,以保持新分区的 Health . 但是,我们还需要自定义表属性 . 在我们的配置单元中,我们将每个表的数据源作为表属性,并且我们以胶水的形式添加到数据目录中的表中,但是,每次运行爬虫时,它都会覆盖自定义表属性,如Description . 我做错了吗?或者这是来自... -
1 votesanswersviews
AWS Glue截断红移表
我创建了一个胶水作业,将数据从S3(csv文件)复制到Redshift . 它可以工作并填充所需的表格 . 但是,我需要在此过程中清除表,因为在完成该过程后,我将留下重复的记录 . 我正在寻找一种方法将此清除添加到Glue流程中 . 任何意见,将不胜感激 . 谢谢 . -
1 votesanswersviews
使用Glue Data爬虫处理压缩的gz文件以创建表模式
我在S3存储桶中有一个压缩的gzip文件 . 这些文件将由客户端每天上传到S3存储桶 . 未压缩时的gzip将包含CSV格式的10个文件,但仅具有相同的模式 . 我的目标是处理gzip文件,使用数据爬虫创建表模式,然后将所有数据作为镶木地板文件加载/合并到新的单个表中 . Glue爬虫可以读取gz文件并根据文件列表创建创建表 . 请帮助解决方案 . 谢谢 . -
0 votesanswersviews
如何使用redshift谱在S3中查看数据目录表
我在aws glue中为我的数据库创建了外部模式 . 我可以看到表的列表,但我无法查看json数据 . redshift引发了我这个错误 . [Amazon](500310) Invalid operation: S3 Query Exception (Fetch) Details: ----------------------------------------------- erro... -
63 votesanswersviews
更改Amazon Redshift中的列数据类型
如何更改Amazon Redshift数据库中的列数据类型? 我无法在Redshift中更改列数据类型;有没有办法修改Amazon Redshift中的数据类型? -
0 votesanswersviews
写入cassandra 0001-01-01 00:00:00.0 . 变成0001-01-01 10:30:00?
我正在从spark中读取一个csv文件作为数据帧 . 对于列x,时间戳值为0001-01-01 00:00:00.0 . 将数据帧写入Cassandra表后,我发现时间戳值已更改,0001-01-01 10:30:00任何人帮我... -
4 votesanswersviews
从AWS Redshift到S3的AWS Glue ETL作业失败
我正在尝试使用AWS Glue服务向ETL提供从redshift到S3的一些数据 . Crawler成功运行并在数据目录中创建元表,但是当我运行ETL作业(由AWS生成)时,它在大约20分钟后显示“资源不可用”时失败 . 我看不到在Google Cloud中创建的AWS胶合日志或错误日志 . 当我尝试查看它时,它说“找不到日志流 . 找不到日志流jr_xxxxxxxxxx . 检查它是否正确创建... -
0 votesanswersviews
Asp.net帮助它只在主页中出错
我是asp.net的新手 . 我在ftp上传了一个网站 . 除default.aspx剩余页面工作 . 当我导航到主页,即Default.aspx时,它显示错误 '/'应用程序中的服务器错误 . 无法找到该资源 . 说明:HTTP 404.您要查找的资源(或其中一个依赖项)可能已被删除,名称已更改或暂时不可用 . 请查看以下网址,确保拼写正确 . 请求的URL:/Default.aspx 版本信息... -
3 votesanswersviews
redshift连接的粘合作业:“无法找到合适的安全组”
我正在尝试设置AWS Glue作业并 Build 与Redshift的连接 . 当我将连接类型设置为Redshift时,我收到错误: “无法找到合适的安全组 . 将连接类型更改为JDBC并重试添加连接 . ” 按照here in these forums的说法,我为我的IAM帐户添加了角色 AWSGlueServiceRoleDefault 的权限: 然后我使用匹配的IAM角色 AWSGlu... -
1 votesanswersviews
AWS Glue:Redshift Upsert
在做了一些研究之后,我发现由于Redshift不支持merge / upsert,一些人正在使用登台表来更新/插入记录 . 由于Redshift也不支持程序(触发器等),是否有人建议他们如何自动化这个过程(lambda,数据管道等)? -
0 votesanswersviews
从AWS Glue升级到Amazon Redshift
据我所知,没有直接的UPSERT查询可以直接从Glue到Redshift执行 . 是否可以在胶水脚本本身中实现临时表概念? 所以我的期望是创建临时表,将其与目标表合并,最后删除它 . 可以在Glue脚本中实现吗? -
1 votesanswersviews
aws如何在redshift中粘贴作业上传几个表
是否可以使用AWS Glue作业在Redshift中加载多个表? 这些是我遵循的步骤 . 从S3抓取json并将数据转换为数据目录表 . 我创建了一个将在redshift中上传数据目录表的作业,但它只限制我为每个作业上传1个表 . 在作业属性中(添加作业),我选择的作业运行选项是:由AWS Glue生成的建议脚本 . 我不熟悉python,我是AWS Glue的新手 . 但是我需要上传... -
0 votesanswersviews
在AWS-GLUE中转换json并在Amazon Redshift中上传
我出面阅读这篇关于展平json文件并在redshift中上传的亚马逊文章 . https://aws.amazon.com/blogs/big-data/simplify-querying-nested-json-with-the-aws-glue-relationalize-transform/ 我的计划是转换json文件并在s3中上传,然后将文件再次抓取到aws-glue到数据目录,并将数据作... -
3 votesanswersviews
AWS Glue ETL作业因AnalysisException失败:u 'Unable to infer schema for Parquet. It must be specified manually.;'
我正在尝试创建AWS Glue ETL Job,它将数据从存储在S3中的镶木地板文件加载到Redshift表中 . Parquet文件使用带有“简单”文件架构选项的pandas写入S3 bucked中的多个文件夹 . 布局如下所示: S3://bucket/parquet_table/01/file_1.parquet S3://bucket/parquet_table/01/file_2.pa... -
2 votesanswersviews
AWS Glue Crawler为每个镶木地板数据创建每个表
在粘贴作业中,我使用胶合连接从AWS RDS PSQL创建了dynamic_frame,并在执行了一些ETL作业后将数据写入S3 . 之后,我创建并运行了Glue Crawler,用于在S3中编写的镶木地板文件 . 这是示例代码 . dynamic_frame = glueContext.create_dynamic_frame_from_options('postgresql', ... -
5 votesanswersviews
在AWS Glue pySpark脚本中使用SQL
我想使用AWS Glue将一些csv数据转换为orc .我创建的ETL作业生成了以下PySpark脚本: import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue.cont... -
0 votesanswersviews
AWS GLUE数据导入问题
有一个excel文件testFile.xlsx,它如下所示: ID ENTITY STATE 1 Montgomery County Muni Utility Dist No.39 TX 2 State of Washington WA 3 Waterloo CUSD 5 IL 4 Staunton CUSD 6 IL 5 Berea City SD OH 6 ... -
0 votesanswersviews
AWS GLUE分类器:grok表达式以正确确定csv文件架构
我希望能够使用aws glue确定csv的数据类型 . 为此,我为我的抓取工具创建了一个分类器,以匹配以下记录: 1234 abcd 01.01.11 09.11.17 abe12321344421 154746 1 1 0 sometxt 09.11.17 SYS_JOB 09.11.17 但我的Grok表达式与文件不匹配 . 这里是: %{CSV... -
0 votesanswersviews
AWS Glue不会对我的数据进行分类
我有一个html文件,其结构如下: <!doctype html public "-//w3c//dtd html 4.0transitional//en"> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=... -
2 votesanswersviews
亚马逊雅典娜的HIVE_INVALID_METADATA
如何在Amazon Athena中解决以下错误? HIVE_INVALID_METADATA:com.facebook.presto.hive.DataCatalogException:错误::期望在'struct <x-amz-request-id:string的位置8,action:string,label:string,category:string,when:string >... -
0 votesanswersviews
如何在主活动布局中加载数据时启动向用户显示UI屏幕的活动
我试图从数据库中加载主活动布局中的一些数据,而这种情况发生时我想在弹出窗口中向用户显示一个对话框 . 我已经尝试使用线程和异步任务,但仍然在加载数据时屏幕冻结,最后当它完成时它会显示我的弹出窗口 . 我希望对话框与数据加载同时显示 . 下面是加载数据并调用异步任务的主活动的函数 . public void call_itemdisplay(final String bookid) { ... -
0 votesanswersviews
在AWS Aurora和Redshift之间使用二进制类型同步表
我一直在尝试一些AWS解决方案来在Aurora和Redshift之间同步数据 . 这样做的目的是删除我们的事务和分析数据库之间的数据管道的提取部分 . 我尝试了什么: AWS Data Pipeline . 我认为这很快就会终结,因为与Glue和DMS相比,界面和功能似乎过时了 . 数据管道也不兼容Terraform . AWS DMS . 我有这个设置但没有找到将 LONGBLOB 类型... -
1 votesanswersviews
在使用AWS Glue Catalog生成的表上查询AWS Athena时,“不支持类型LIST”
我编写了一个ETL作业,将一堆JSON文件转换为存储在S3上的时间分区镶木地板文件(对象) . 我没有在AWS Athena上手动创建表并使用Athena数据目录,而是决定使用AWS Glue数据存储,它对已转换的镶木地板文件进行爬网并生成似乎正确的模式 . 它是: CREATE EXTERNAL TABLE `table_fd2f388f79ee6`( `field1` string, ... -
1 votesanswersviews
AWS Glue:在写入时从CSV文件中删除引号字符
我在S3中有一个csv文件,它没有任何引号 . 例如 . dVsdfsCcn7j6,r:werwerwerwerwerwerwer,_User $ SSSSSBFwJ,登录名,密码,false,2011-10-27 10:46:55,d24c2465e-9945645c5-4645509-a745741c7-ba9bcd1a7cfd,2046-11-27 15:46:55,2016 -10-27... -
0 votesanswersviews
使用AWS Glue将CSV转换为ORC时如何排除分区?
我在S3中有一堆CSV文件,我试图使用AWS Glue中的ETL作业转换为ORC . 我有一个爬虫程序,它爬行包含CSV的目录并生成一个表 . 该表如下所示: Column name | Data type | Partition key --------------------------------------- field1 | string | field2 | ... -
0 votesanswersviews
使用非标准分隔符为CSV定制CSV自定义分类器
我正在尝试使用AWS Glue来抓取数据集并使其可用于在Athena中进行查询 . 我的数据集是一个分隔的文本文件,使用^来分隔列 . Glue无法推断此数据的架构,因为CSV分类器仅识别逗号(,),管道(|),制表符(\ t),分号(;)和Ctrl-A(\ u0001) . 有没有办法更新这个分类,包括非标准的分隔符?构建自定义分类器的选项似乎只支持Grok,JSON或XML,在这种情况下不适... -
0 votesanswersviews
使用AWS Glue,S3和Athena的侧宽搜索引擎
我们有~30个微服务,包括论坛数据,用户数据,票据数据,账单数据,活动数据,通知等等 . 这些数据位于独立的数据库中 . 最终用户希望搜索相关数据,这将有助于他们获取所需信息,从而改善了产品的用户体验 . 我们想知道是否可以使用AWS Glue,S3,Athena / S3 select来构建搜索引擎,而不是使用弹性搜索和构建复杂的搜索系统 . 多个Glue作业将定期查询具有用户数据的表和列的db... -
0 votesanswersviews
MonoMac包装错误
我使用MonoMac 3.0.6和Mono Runtime 2.10.12,我用它创建了一个应用程序 . 所以,我想用它打包MonoRuntime:转到它的选项并选择链接“Framework SDKs only” . 当我构建它时,我收到此错误: 构建:ThisSimpleApp(Debug | x86)执行主编译... /Library/Frameworks/Mono.framework/Ver... -
1 votesanswersviews
如何在MAC OS X上运行KeePass 2.X.
我刚刚安装了最新版本的 Mono 和 XQuartz . 我下载了 Keepass-2.29 便携版 . 当我尝试运行它时,我得到以下例外: $ mono KeePass.exe System.TypeInitializationException:System.Windows.Forms.WindowsFormsSynchronizationContext的类型初始化程序抛出异常--->...