Установка Apache Spark на Ubuntu 14.04

Сначала у меня есть виртуальная машина, к которой я обращаюсь через ubuntu, и эта виртуальная машина тоже Ubuntu 14.04. Мне нужно установить Apache Spark как можно скорее, но я не могу найти ничего, что могло бы помочь мне или дать мне ссылки, где это лучше всего объяснить. Я попытался установить его на локальную машину Ubuntu 14.04, но это не удалось, но дело в том, что я не хочу устанавливать его в кластере. Любая помощь пожалуйста???

Ответ 1

Вы можете установить и запустить искру в три простых шага:

  • Загрузите последнюю версию Spark из здесь.
  • Перейдите к загруженной папке с терминала и выполните следующую команду:

    tar -xvf spark-x.x.x.tgz        //replace x with your version
    
  • Перейдите в извлеченную папку и выполните одну из следующих команд:

    ./bin/spark-shell               // for interactive scala shell
    ./bin/pyspark                   // for interactive python shell
    

Теперь вы готовы к игре с искру.

Ответ 2

Процесс, которым нужно следовать, в основном таков:

Убедитесь, что установлена ​​версия 7 или 8 набора Java Development Kit

На следующем шаге установите Scala.

И затем добавьте следующее в конец файла ~/.bashrc

export SCALA_HOME=<path to Scala home>
export PATH=$SCALA_HOME/bin:$PATH

перезапустить bashrc.

$ . .bashrc

На следующем шаге установите git. Конструкция искры зависит от git.

sudo apt-get install git

Наконец, скачайте источник искры от здесь

$ wget http://d3kbcqa49mib13.cloudfront.net/spark-1.4.0.tgz
$ tar xvf spark-1.4.0.tgz 

Строительство

SBT (Simple Build Tool) используется для создания Spark, который поставляется вместе с ним. Чтобы скомпилировать код

$ cd spark-1.4.0
$ build/sbt assembly

Построение займет некоторое время.

Обратитесь к этому сообщению в блоге, здесь вы можете найти более подробные инструкции по установке Apache Spark на Ubuntu-14.04

Ответ 3

В этом сообщении описаны подробные шаги по настройке Apache Spark-2.0 в машине Ubuntu/Linux. Для запуска Spark в машине Ubuntu должны быть установлены Java и Scala. Spark может быть установлен с Hadoop или без него, здесь, в этом сообщении, мы будем иметь дело только с установкой Spark 2.0 Standalone. Установка Spark-2.0 поверх Hadoop объясняется в другом сообщении. Мы также будем заниматься установкой ноутбуков Jupyter для запуска приложений Spark с использованием Python с модулем pyspark. Итак, давайте начнем с проверки и установки java и scala.

$ scala -version
$ java –version

Эти команды должны печатать версии, если Scala и java уже установлены, и вы можете перейти к их установке, используя следующие команды.

$ sudo apt-get update
$ sudo apt-get install oracle-java8-installer
$ wget http://www.scala-lang.org/files/archive/scala-2.10.4.tgz
$ sudo mkdir /usr/local/src/scala
$ sudo tar xvf scala-2.10.4.tgz -C /usr/local/scala/

Вы можете снова проверить, используя команды -version, если java и Scala установлены правильно, что будет отображаться - Scala версия для кода 2.10.4 - Copyright 2002-2013, LAMP/EPFL и для java она должна отображаться java-версия "1.8.0_101" Java (TM) SE Runtime Environment (сборка 1.8.0_101-b13) Java HotSpot (TM) 64-разрядная серверная VM (сборка 25.101-b14, смешанный режим) И обновите файл .bashrc, добавив эти строки в конец.

export SCALA_HOME=/usr/local/scala/scala-2.10.4
export PATH=$SCALA_HOME/bin:$PATH

И перезапустите bashrc, используя эту команду

$ . .bashrc

Установка Spark Сначала загрузите Spark из https://spark.apache.org/downloads.html, используя эти параметры Spark Realease: 2.0.0 Тип пакета: предварительно с Hadoop 2.7 и прямой загрузкой.

Теперь перейдите в $HOME/Downloads и используйте следующую команду для извлечения искрового файла tar и перехода в заданное местоположение.

$ `tar xvf spark-1.3.1-bin-hadoop2.6.tgz`
$ `cd $HOME/Downloads/` 
$ mv spark-2.0.0-bin-hadoop2.7 /usr/local/spark

Добавьте следующую строку в файл ~/.bashrc. Это означает добавление местоположения, где файл программного обеспечения искры находится в переменной PATH.

export SPARK_HOME=/usr/local/spark
export PATH =$SPARK_HOME/bin:$PATH

Снова перезапустите среду .bashrc, используя эти команды source ~/.bashrc или

. .bashrc

Теперь вы можете запустить искровую оболочку, используя эти команды

$spark-shell    for starting scala API
$ pyspark       for starting Python API

Ответ 4

Вы можете начать с http://spark.apache.org/downloads.html, чтобы загрузить Apache Spark. Если у вас нет существующего кластера Hadoop/установки, который вам нужно выполнить, вы можете выбрать любой из параметров. Это даст вам файл .tgz, который вы можете извлечь с помощью tar -xvf [filename]. Оттуда вы можете запустить искровую оболочку и начать работу в локальном режиме. В руководстве по началу работы есть дополнительная информация: http://spark.apache.org/docs/latest/.

Ответ 5

Я сделал это, создав проект Maven, а затем вставил зависимость искры в файл pom.xml. Вот как это сработало для меня, потому что мне пришлось программировать на Java, а не Scala.