-
0 votesanswersviews
Azure数据工厂HDInsight按需群集'Unable to instantiate SessionHiveMetaStoreClient'
我正在通过使用Visual Studio部署ARM模板来部署Azure数据工厂,基本上一步一步地遵循this Azure tutorial . 模板定义了一个数据工厂,用Azure存储关联服务(用于读取和写入源和输出数据),输入数据集和输出数据集,一个HDInsight点播连接服务,并且其运行一个HDInsight HIVE活性的管道运行HIVE脚本,将输入数据集处理为输出数据集 . 一切都成功部... -
0 votesanswersviews
在HDInsight Hadoop集群上部署Tomcat
我正在尝试通过HDInsight Hadoop集群部署Tomcat Web应用程序 . 我安装的应用程序正在使用Linux界面,但是 localhost/8080 端口,其中Web应用程序未在我的Web浏览器中加载 . HDInsight中的localhost端口是否已关闭? Is there a way to open the HDInsight 8080 port or use a dif... -
0 votesanswersviews
为HDInsight群集 Build 链接存储帐户有什么好处?
对于HDInsight群集,必须至少有一个azure存储帐户,这是其默认存储帐户 - 它是必需的,以便将其视为其fs(文件系统) . 我得到了 . 但是可选链接的azure存储帐户呢?至少从ADF(Azure数据工厂)的角度来看,我们是否需要将存储帐户添加为链接存储帐户到HDInsight群集?无论如何,Azure存储帐户只需提供两条信息即帐户名和密钥即可访问 . 这两件事都在ADF中的链接服务器... -
0 votesanswersviews
用于天蓝色HDInsight的边缘节点上的ssh
我尝试使用边缘节点部署HDInsight群集 . 我使用https://github.com/Azure/azure-quickstart-templates/blob/master/101-hdinsight-linux-with-edge-node/azuredeploy.json进行部署 . 部署完成后,我使用以下命令尝试了ssh: ssh sshuser@new-edgenode.mycl... -
0 votesanswersviews
Hive函数quarter()返回'invalid function'
这表示函数quarter()是在Hive 1.3中引入的 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-DateFunctions 我使用默认版本的HDInsight(3.1)来运行Hadoop: https://azure.microsoft.com/en-us/docu... -
0 votesanswersviews
HDInsight群集中的UTF-8文本与火花结果编码错误'ascii'编解码器无法对位置中的字符进行编码:序号不在范围内(128)
试图在HDInsight集群中使用希伯来字符UTF-8 TSV文件,在Linux上使用spark,我得到编码错误,有什么建议吗? 这是我的pyspark笔记本代码: from pyspark.sql import * # Create an RDD from sample data transactionsText = sc.textFile("/people.txt") h... -
0 votesanswersviews
Mule-Hive DB 连接返回 503 HTTP 响应代码
尝试从 m 子通用数据库连接器连接到 HDInsight 3.6 中的组件 APache 蜂巢 2.0 时,出现以下错误 java.sql.SQLException:无法获得 URL 的连接jdbc:hive2://hostname:443/default; transportMode=http; httpPath=/hive2; ssl=true; trustStorePassword = *... -
0 votesanswersviews
Data Lake Store的备份
我正在为Data Lake Store(DLS)制定备份策略 . 我的计划是创建两个DLS帐户并在它们之间复制数据 . 我已经评估了几种实现此目的的方法,但它们都不满足保留POSIX ACL的要求(DLS用语中的权限) . PowerShell cmdlet要求将数据从主DLS下载到VM并重新上载到辅助DLS . AdlCopy工具仅适用于Windows 10,不保留权限,也不支持跨区域复制数... -
1 votesanswersviews
使用Azure CLI在HDInsight上安装外部python包:RdfeResourceHandlerException
我想在MS Azure HDInsight群集上安装pyobdc python包,以便在pyspark作业中使用 . 在this之后,我尝试使用"script action"完成此操作 . bash脚本是: #!/usr/bin/env bash sudo /usr/bin/anaconda/bin/conda install pyodbc 在选项中,可以使用Web界面(a... -
2 votesanswersviews
Azure Data Factory无法访问受IP限制的VNet中的HDInsight群集
我在Azure VNet上有一个HDInsight Hadoop集群(Linux,单独部署)(使用NSG限制客户端IP) . Azure SQL防火墙有一个名为“允许访问Azure服务”的选项,它允许Data Factory访问Azure SQL . 在VNet中没有这样的选项,您必须指定IP地址范围或设置标记(Internet,虚拟网络,AzureLoadBalancer) . 我认为Azure... -
0 votesanswersviews
如何基于容器中的XML定义HDInsight配置单元外部表
我尝试创建一个hive外部表: CREATE EXTERNAL TABLE TestXML(storexml string)STORED as TEXTFILE LOCATION'wasb:/// test /'; 但是,当我尝试执行如下所示的查询时,它无法提取字段:SELECT xpath_string(storexml,'/ trades / trade / USI') FROM TestXM... -
1 votesanswersviews
查询从单独环境复制的Hive中的ORC数据
我通过Ambari使用Azure HDInsights,Azure Data Lake和Hive . 我正在 Build 一个测试环境 . 原始环境的数据以通过Hive加载的ORC文件的形式存储在Azure Data Lake中 . 我成功地通过Data Factory将原始Data Lake中的所有数据复制到测试Data Lake . 当我尝试在测试环境中创建我的Hive ORC表然后查询它们时... -
2 votesanswersviews
运行几个小时后,Azure数据工厂中的自定义活动失败
我使用按需HDInsight群集在Azure数据工厂中运行自定义.Net活动 . 活动处理存储在Azure Blob中的XML文件,并将它们移动到Azure Data Lake Store . 执行28小时后失败,出现以下错误: “活动中出错:请求已中止:请求已取消..” 此活动运行没有可用的日志文件,上述错误不足以解决问题 . 我该如何解决这个问题? -
1 votesanswersviews
在Azure上的HDInsights群集上使用Data Lake或Blob
在Azure中创建HDInsights Hadoop集群时,有两个存储选项 . Azure Data Lake Store(ADLS)或Azure Blob存储 . 这两个选项之间的真正区别是什么?它们如何影响性能? 我发现这个页面https://docs.microsoft.com/en-us/azure/data-lake-store/data-lake-store-comparison-w... -
0 votesanswersviews
HDinsight配置单元活动管道不在Azure数据湖中创建输出
尝试使用数据工厂运行配置单元活动,管道完成正常,并且在集群内部创建数据表,但输出数据集不是在Azure数据湖存储中创建文件,这是故意的吗? 只是想学习如此温柔 . Input dataset: 包含数据的标准输入csv文件 { "name": "dlsinput", "properties": { "published&... -
1 votesanswersviews
在Azure数据工厂中的单个HDinsight群集上运行多个管道和/或作业
使用HDInsight群集为Azure数据工厂中的自定义活动运行管道的建议方法是什么 . 我们是否可以将单个HDInsght群集用于多个Azure数据工厂作业以及同时运行多个管道? -
0 votesanswersviews
Ambari 在手动更改配置文件后是否恢复配置?
我正在运行带有边缘节点的 Microsoft HDInsight 3.6 群集。对于我们的应用程序需求,我们需要更改边缘节点上 core-site.xml 的属性值,我们当前正在尝试使用 shell 脚本(使用 sed 命令) 但是,我们发现配置恢复到原始值,这会导致我们的应用程序出现问题。请注意,边缘节点主机与群集中的所有其他节点位于相同的“默认”配置组中。 我是新手,所以想要了解以下内容 - ... -
2 votesanswersviews
ALTER TABLE tbl PARTITION SET LOCATION期间的Spark SQL表锁
我们将Spark SQL 2.2.0与Hive Metastore一起使用(在HDInsight上) . 我们有外部表构建在Azure BLOB上存储的分区镶木地板文件上 . 数据将以镶木地板的形式发送到BLOB,我们对此没有影响 . 我们需要接受分区数据更新(也称为重述),对以下内容的影响最小: 对数据运行查询的下游系统(避免破解查询和长时间等待等) 数据更新过程(尽可能避免长时间等待和... -
0 votesanswersviews
C#Map使用“{”减少失败响应状态代码不表示成功:403(禁止) . “}有时401:需要凭据
在 mscorlib.dll 中发生 System.AggregateException 类型的未处理异常 内部异常: {"Response status code does not indicate success: 403 (Forbidden)."} 有时会得到: {"Response status code does not indicate success:... -
9 votesanswersviews
Azure Data Lake VS Azure HDInsight
我正在浏览Microsoft文档: https://docs.microsoft.com/en-us/azure/data-lake-store/data-lake-store-overview 我是Azure Data lake和HDInsight的新手 . URL中有一条声明告诉我们 "Azure Data Lake Store can be accessed from Hadoo... -
0 votesanswersviews
jupyter pyspark输出:没有模块名称sknn.mlp
我有1个WorkerNode SPARK HDInsight群集 . 我需要在Pyspark Jupyter中使用scikit-neuralnetwork和vaderSentiment模块 . 使用以下命令安装库: cd /usr/bin/anaconda/bin/ export PATH=/usr/bin/anaconda/bin:$PATH conda update matplotlib ... -
0 votesanswersviews
在Web应用程序中使用Apache spark和HDinsight集群
我目前正在尝试使用Apache spark创建一个大数据处理Web应用程序,我已经成功安装在我的HDinsight集群上 . 我过去用C#连接到我的集群编写了Mapreduce程序,并且能够通过输入我的帐户名,存储密钥等来运行我连接到我的集群的应用程序...我已经浏览了网络并且它似乎用apache spark提交作业的唯一方法是使用RDP连接到您的集群,但是我无法将其合并到Web应用程序中(很容易... -
0 votesanswersviews
通过node.js命令行界面报告创建azure hdinsight“无法调用未定义的方法'filter'”
我创建了一个hdinsight群集配置,然后通过命令'azure hdinsight cluster create --config myhdinsightconf'创建群集,但是已报告 info:执行命令hdinsight cluster create / error:无法调用未定义信息的方法'filter':错误信息已记录到azure.err错误:hdinsight cluster crea... -
0 votesanswersviews
如何在Azure HDInsight中的工作节点上安装自定义软件?
我使用PowerShell创建了一个Azure HDInsight集群 . 现在我需要在工作节点上安装一些自定义软件,这些软件是我将使用Hadoop流运行的映射器所必需的 . 我还没有找到任何可以帮助我完成此任务的PowerShell命令 . 我可以准备一份可以安排所有 Worker 的自定义工作,但我不相信这是最好的解决方案 . 有更好的选择吗? edit : 使用AWS Elastic Map... -
0 votesanswersviews
无法在Azure中的Azure中创建HDInsight群集
我尝试在Azure中创建一个HDInsight Storm Cluster并将其添加到我的虚拟网络中 . 但由于某种原因,我总是收到以下错误消息: 预群集创建验证失败:由于用户errorValidation报告,群集xxxxxxx的虚拟网络验证失败:用户订阅xxxxxxx没有任何虚拟网络 . 例外: Powershell脚本如下所示: #############################... -
4 votesanswersviews
如何在HDInsight中添加外部jar到spark?
我正在尝试在Azure上的HDInsight Spark群集中安装Azure CosmosDB Spark连接器 . (Github) 我是火花环境的新手,我无法实现将连接器jar添加到spark配置的正确方法 . 我使用的方法: Method 1 我上传了与HDInsight群集关联的Azure Blob存储容器上的jar . (例如/ jars /)我与spark cluster head... -
0 votesanswersviews
使用脚本操作在HDInsight上安装Giraph
我正在尝试使用脚本操作在hadoop的HDInsight群集上安装Giraph . 部署群集30分钟后,将显示错误 . 部署失败部署到资源组“图表”失败 . 可能有用的基础API的其他详细信息:至少一个资源部署操作失败 . 请列出部署操作以获取详细信息有关使用详情,请参阅https://aka.ms/arm-debug . 提前致谢 . -
0 votesanswersviews
Azure API使用ADL创建的Azure HDInsight
使用Rest API通过ADL创建Azure HDinsight时出现以下错误 . 下面是我们作为json的一部分给出的配置 . 有什么遗漏? "core-site": { "fs.defaultFS": "adl://<Home>", "... -
0 votesanswersviews
Azure数据工厂中的HDInsight Hive CREATE EXTERNAL TABLE ...位置:没有用于scheme的文件系统:adl
我有一个带有HD Insight Pipeline的数据工厂管道,它试图访问Azure Data Lake目录 . "type": "HDInsightHive", "typeProperties": { "scriptPath": "mpp-hive-...