В настоящее время я автоматизирую скрипты Apache Spark Pyspark с использованием кластеров EC2 с использованием предварительно сконфигурированного каталога. /ec 2. Для целей автоматизации и планирования я хотел бы использовать модуль Boto EMR для отправки сценариев в кластер.
Я смог загрузить и установить Spark в кластере EMR. Я также могу запустить script в EMR, используя мою локальную версию pyspark и установив мастер как таковой:
$: MASTER=spark://<insert EMR master node of cluster here> ./bin/pyspark <myscriptname.py>
Однако для этого требуется, чтобы я запускал этот script локально, и поэтому я не могу полностью использовать способность Boto: 1) запустить кластер 2) добавить шаги script и 3) остановить кластер. Я нашел примеры, используя команды script -runner.sh и emr "step" для spark-shell (scala), но я предполагаю, что есть более простой способ сделать это с помощью модуля Python (pyspark). Спасибо за это заранее!