Java 学习之路

0 votes

answers

views

使用spark 1.6.0通过thrift连接远程不同Kerberized集群中的hive表

我有一个场景，使用spark 1.6.0使用hivecontext.sql（）连接远程集群中的两个不同的hive表？我有cloudera env，其中整个集群Auth机制是Kerboros，需要使用spark的解决方案我应该连接到两个不同的远程环境（DEV-UAT，DEV-PRD，UAT-SIT）？已经在Stackoverflow中提到了很多例子并尝试了很多样本，但直到现在还没有解决方案？欢...

hive cloudera hivecontext apache-spark-1.6 apache-sentry
2 votes

answers

views

如何通过Spark属性（Spark 1.6）启用或禁用spark-shell中的Hive支持？

是否有任何配置属性我们可以将其设置为在spark 1.6中通过spark-shell禁用/启用Hive支持 . 我试图获取所有sqlContext配置属性， sqlContext.getAllConfs.foreach(println) 但是，我不确定实际上需要哪个属性来禁用/启用配置单元支持 . 或者还有其他办法吗？

apache-spark hive apache-spark-sql apache-spark-1.6
1 votes

answers

views

Pyspark：计算行最小值，忽略零和空值

我想基于数据框中现有的列子集创建一个新列（v5） . 示例数据帧： +---+---+---+---+ | v1| v2| v3| v4| +---+---+---+---+ | 2| 4|7.0|4.0| | 99| 0|2.0|0.0| |189| 0|2.4|0.0| +---+---+---+---+ 提供示例数据帧的另一个视图： +---+---+---+---+ | v1| ...

apache-spark pyspark spark-dataframe pyspark-sql apache-spark-1.6
1 votes

answers

views

为什么从Hive读取失败并出现“java.lang.ClassNotFoundException：Class org.apache.hadoop.fs.s3a.S3AFileSystem not found”？

我使用Spark v1.6.1和Hive v1.2.x与Python v2.7 对于Hive，我有一些表（ORC文件）存储在HDFS中，一些存储在S3中 . 如果我们尝试连接2个表，其中一个在HDFS中，另一个在S3中，则抛出 java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop....

apache-spark amazon-s3 hive apache-spark-sql apache-spark-1.6
2 votes

answers

views

从Cassandra读取数据时如何控制分区数？

我用： cassandra 2.1.12 - 3个节点 spark 1.6 - 3个节点 spark cassandra连接器1.6 我在Cassandra中使用令牌（不是vnodes） . 我正在编写一个简单的工作，从Cassandra表读取数据，并显示其计数表有大约7000万行，它需要15分钟 . 当我正在读取数据并检查RDD的分区数是大约21000这个太大了 . 如何...

apache-spark cassandra spark-cassandra-connector apache-spark-1.6
0 votes

answers

views

如何基于dataFram中的行计数为列值执行动态分区

我正在尝试基于 accountId 对输入文件进行分区 . 但是，仅当dataFrames包含超过1000条记录时，才会执行此分区 . accountId 是一个动态整数，不可能是未知的 . 请考虑以下代码 val ssc = new StreamingContext(sc, Seconds(2)) val lines = ssc.textFileStream("input&quot...

scala apache-spark spark-streaming apache-spark-1.6
0 votes

answers

views

加入两个数据帧时，CassandraSourceRelation不可序列化

我有一个带有spark-cassandra-connector 1.6.2的数据帧设置 . 我尝试用cassandra执行一些转换 . Datastax企业版为5.0.5 . DataFrame df1 = sparkContext .read().format("org.apache.spark.sql.cassandra") ...

apache-spark-sql cassandra-3.0 spark-cassandra-connector apache-spark-1.6
14 votes

answers

views

将CSV读入具有时间戳和日期类型的Spark Dataframe

这是CDH与Spark 1.6 . 我正在尝试将此假设CSV导入到Apache SparkFrame的apache中： $ hadoop fs -cat test.csv a,b,c,2016-09-09,a,2016-11-11 09:09:09.0,a a,b,c,2016-09-10,a,2016-11-11 09:09:10.0,a 我用 databricks-csv jar . ...

apache-spark apache-spark-sql apache-spark-1.6
0 votes

answers

views

如何提取Array的ElementType作为StructType的实例

我尝试在spark中分解复杂数据帧的结构 . 我只对root下的嵌套数组感兴趣 . 问题是我无法从StructField的类型中检索ElementType . 这是一个示例，这是StructType对象的模式： df.printSchema result>> root |-- ID: string (nullable = true) |-- creationDate: string...

json scala spark-dataframe apache-spark-1.6
2 votes

answers

views

Apache Spark：设置执行程序实例

我使用参数在YARN上运行我的Spark应用程序：在spark-defaults.conf中： spark.master yarn-client spark.driver.cores 1 spark.driver.memory 1g spark.executor.instances 6 spark.executor.memory 1g 在yarn-site.xml中： yarn.nodeman...

apache-spark yarn executors apache-spark-1.6

热门问题