我打算将Spark打造成EC2 . 默认的spark_ec2.py下载了一个预构建的软件包(Hadoop 1.0.4为1,CDH 4.2.0为2,yarn(Hadoop 2.4.0)),但它没有'-Phive -Phive-thriftserver'选项 . 大多数情况下,我需要使用Hive UDF,它必须从源代码构建 . (我也需要YARN,因为'Hive on Spark支持YARN模式下的Spark作为默认值 . ')
“构建Spark”页面说明了许多示例,它似乎是混合的
Cloudera CDH 4.2.0 with MapReduce v1
mvn -Dhadoop.version=2.0.0-mr1-cdh4.2.0 -Phadoop-1 -DskipTests clean package
和
Apache Hadoop 2.4.X,支持Hive 13
mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -Phive -Phive-thriftserver -DskipTests clean package
(来源:http://spark.apache.org/docs/latest/building-spark.html)
目前,以下是我能想到的
mvn -Pyarn -Dhadoop.version=2.4.0-mr1-cdh4.2.0 -Phadoop-1 -Phive -Phive-thriftserver -DskipTests clean package
任何人都可以告知以上是否正确或让我知道我可以从中学到的任何其他资源?
谢谢 .
1 回答
我被误解了
--hadoop-major-version
有3个选项:"1" for Hadoop 1.0.4
"2" for CDH 4.2.0(mr1)
"yarn" for Hadoop 2.4.0
我使用
spark.ami.hvm.v14 (ami-35b1885c)
并且能够通过以下方式成功构建 ../make-distribution.sh --name spark-1.6.0-bin-hadoop2.4-hive-yarn --tgz -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -Psparkr -Phive -Phive-thriftserver -DskipTests