我'm a dummy on Ubuntu 16.04, desperately attempting to make Spark work. I'试图使用stackoverflow上找到的答案解决我的问题,但我无法解决任何问题 . 使用bin文件夹中的命令 ./spark-shell
启动spark我收到此消息
WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable".
我正在使用Java版本
java version "1.8.0_101
Java(TM) SE Runtime Environment (build 1.8.0_101-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.101-b13, mixed mode).
Spark是最新版本:2.0.1与Hadoop 2. 7.我还重新使用了较旧的Spark软件包,1.6.2与Hadoop 2.4,但我得到了相同的结果 . 我也尝试在Windows上安装Spark,但它似乎比在Ubuntu上执行它更难 .
我还尝试从我的笔记本电脑上运行Spark上的一些命令:我可以定义一个对象,我可以创建一个RDD并将其存储在缓存中,我可以使用像 .map()
这样的函数,但是当我尝试运行函数 .reduceByKey()
时,我会收到几个字符串的错误消息 .
可能是Hadoop库是为32位编译的,而我是在64位?
谢谢 .
2 回答
修复步骤:
download Hadoop binaries
解压缩到您选择的目录
设置
HADOOP_HOME
指向该目录 .将
$HADOOP_HOME/lib/native
添加到LD_LIBRARY_PATH
.下载hadoop二进制文件(link)并将其放在您的主目录中(如果您愿意,可以选择不同的hadoop版本并相应更改后续步骤)
使用以下命令解压缩主目录中的文件夹 . tar -zxvf hadoop_file_name
现在将导出HADOOP_HOME =〜/ hadoop-2.8.0添加到.bashrc文件中 . 打开一个新终端,然后重试 .
资料来源:Install PySpark on ubuntu