-
0 votesanswersviews
使用spark 1.6.0通过thrift连接远程不同Kerberized集群中的hive表
我有一个场景,使用spark 1.6.0使用hivecontext.sql()连接远程集群中的两个不同的hive表? 我有cloudera env,其中整个集群Auth机制是Kerboros,需要使用spark的解决方案我应该连接到两个不同的远程环境(DEV-UAT,DEV-PRD,UAT-SIT)? 已经在Stackoverflow中提到了很多例子并尝试了很多样本,但直到现在还没有解决方案? 欢... -
2 votesanswersviews
如何通过Spark属性(Spark 1.6)启用或禁用spark-shell中的Hive支持?
是否有任何配置属性我们可以将其设置为在spark 1.6中通过spark-shell禁用/启用Hive支持 . 我试图获取所有sqlContext配置属性, sqlContext.getAllConfs.foreach(println) 但是,我不确定实际上需要哪个属性来禁用/启用配置单元支持 . 或者还有其他办法吗? -
1 votesanswersviews
Pyspark:计算行最小值,忽略零和空值
我想基于数据框中现有的列子集创建一个新列(v5) . 示例数据帧: +---+---+---+---+ | v1| v2| v3| v4| +---+---+---+---+ | 2| 4|7.0|4.0| | 99| 0|2.0|0.0| |189| 0|2.4|0.0| +---+---+---+---+ 提供示例数据帧的另一个视图: +---+---+---+---+ | v1| ... -
1 votesanswersviews
为什么从Hive读取失败并出现“java.lang.ClassNotFoundException:Class org.apache.hadoop.fs.s3a.S3AFileSystem not found”?
我使用Spark v1.6.1和Hive v1.2.x与Python v2.7 对于Hive,我有一些表(ORC文件)存储在HDFS中,一些存储在S3中 . 如果我们尝试连接2个表,其中一个在HDFS中,另一个在S3中,则抛出 java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop.... -
2 votesanswersviews
从Cassandra读取数据时如何控制分区数?
我用: cassandra 2.1.12 - 3个节点 spark 1.6 - 3个节点 spark cassandra连接器1.6 我在Cassandra中使用令牌(不是vnodes) . 我正在编写一个简单的工作,从Cassandra表读取数据,并显示其计数表有大约7000万行,它需要15分钟 . 当我正在读取数据并检查RDD的分区数是大约21000这个太大了 . 如何... -
0 votesanswersviews
如何基于dataFram中的行计数为列值执行动态分区
我正在尝试基于 accountId 对输入文件进行分区 . 但是,仅当dataFrames包含超过1000条记录时,才会执行此分区 . accountId 是一个动态整数,不可能是未知的 . 请考虑以下代码 val ssc = new StreamingContext(sc, Seconds(2)) val lines = ssc.textFileStream("input"... -
0 votesanswersviews
加入两个数据帧时,CassandraSourceRelation不可序列化
我有一个带有spark-cassandra-connector 1.6.2的数据帧设置 . 我尝试用cassandra执行一些转换 . Datastax企业版为5.0.5 . DataFrame df1 = sparkContext .read().format("org.apache.spark.sql.cassandra") ... -
14 votesanswersviews
将CSV读入具有时间戳和日期类型的Spark Dataframe
这是CDH与Spark 1.6 . 我正在尝试将此假设CSV导入到Apache SparkFrame的apache中: $ hadoop fs -cat test.csv a,b,c,2016-09-09,a,2016-11-11 09:09:09.0,a a,b,c,2016-09-10,a,2016-11-11 09:09:10.0,a 我用 databricks-csv jar . ... -
0 votesanswersviews
如何提取Array的ElementType作为StructType的实例
我尝试在spark中分解复杂数据帧的结构 . 我只对root下的嵌套数组感兴趣 . 问题是我无法从StructField的类型中检索ElementType . 这是一个示例,这是StructType对象的模式: df.printSchema result>> root |-- ID: string (nullable = true) |-- creationDate: string... -
2 votesanswersviews
Apache Spark:设置执行程序实例
我使用参数在YARN上运行我的Spark应用程序: 在spark-defaults.conf中: spark.master yarn-client spark.driver.cores 1 spark.driver.memory 1g spark.executor.instances 6 spark.executor.memory 1g 在yarn-site.xml中: yarn.nodeman...