首页 文章

Spark无法为您的平台加载native-hadoop库

提问于
浏览
21

我已经尝试使用stackoverflow上找到的答案修复我的问题,但我无法解决任何问题 . 使用bin文件夹中的命令 ./spark-shell 启动spark我收到此消息

WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable".

我正在使用Java版本

java version "1.8.0_101
Java(TM) SE Runtime Environment (build 1.8.0_101-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.101-b13, mixed mode).

Spark是最新版本:2.0.1与Hadoop 2. 7.我还重新使用了较旧的Spark软件包,1.6.2与Hadoop 2.4,但我得到了相同的结果 . 我也尝试在Windows上安装Spark,但它似乎比在Ubuntu上更难 .

我还尝试从我的笔记本电脑上运行Spark上的一些命令:我可以定义一个对象,我可以创建一个RDD并将其存储在缓存中,我可以使用像 .map() 这样的函数,但是当我尝试运行函数 .reduceByKey() 时,我会收到几个字符串的错误消息 .

可能是Hadoop库编译为32位,而我是在64位?

谢谢 .

2 回答

  • 15
    • 下载hadoop二进制文件(link)并将其放在您的主目录中(如果您愿意,可以选择不同的hadoop版本并相应更改后续步骤)

    • 使用以下命令解压缩主目录中的文件夹 . tar -zxvf hadoop_file_name

    • 现在将导出HADOOP_HOME =〜/ hadoop-2.8.0添加到.bashrc文件中 . 打开一个新终端,然后重试 .

    资料来源:Install PySpark on ubuntu

  • 3

    修复步骤:

    • download Hadoop binaries

    • 解压缩到您选择的目录

    • 设置 HADOOP_HOME 指向该目录 .

    • $HADOOP_HOME/lib/native 添加到 LD_LIBRARY_PATH .

相关问题