Spark Невозможно загрузить библиотеку native-hadoop для вашей платформы

Я являюсь манекеном на Ubuntu 16.04, отчаянно пытаясь заставить Spark работать. Я попытался исправить свою проблему, используя ответы, найденные здесь в stackoverflow, но я ничего не мог решить. Запуск искры с помощью команды ./spark-shell из папки bin. Я получаю это сообщение

WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable".

Я использую версию Java

java version "1.8.0_101
Java(TM) SE Runtime Environment (build 1.8.0_101-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.101-b13, mixed mode).

Spark - последняя версия: 2.0.1 с Hadoop 2. 7. Я также повторил попытку с более старым пакетом Spark, 1.6.2 с Hadoop 2.4, но я получаю тот же результат. Я также пытался установить Spark на Windows, но это кажется сложнее, чем делать это на Ubuntu.

Я также пытался запустить некоторые команды на Spark с моего ноутбука: я могу определить объект, я могу создать RDD и сохранить его в кеше, и я могу использовать функцию типа .map(), но когда я пытаюсь запустить функцию .reduceByKey() Я получаю несколько строк сообщений об ошибках.

Может быть, это библиотека Hadoop, которая скомпилирована для 32 бит, а я на 64-битной?

Спасибо.

Ответ 1

Шаги для исправления:

  • скачать бинарные файлы Hadoop
  • распаковать в каталог по вашему выбору
  • установите HADOOP_HOME, чтобы указать на этот каталог.
  • добавить $HADOOP_HOME/lib/native в LD_LIBRARY_PATH.

Ответ 2

  • Загрузите бинарный файл hasoop (ссылка) и поместите его в свой домашний каталог (вы можете выбрать другую версию хаоса, если хотите, и соответственно изменить следующие шаги)
  • Разархивируйте папку в своем домашнем каталоге, используя следующую команду. tar -zxvf hasoop_file_name
  • Теперь добавьте экспорт HADOOP_HOME = ~/hadoop-2.8.0 в ваш .bashrc файл. Откройте новый терминал и повторите попытку.

Источник: Установить PySpark на ubuntu