Я понимаю, что вы можете отправлять отдельные файлы в зависимости от программ Python Spark. Но как насчет полноценных библиотек (например, numpy)?
Есть ли у Spark возможность использовать предоставленный менеджер пакетов (например, pip) для установки зависимостей библиотек? Или это нужно сделать вручную до запуска программ Spark?
Если ответ является ручным, то какие подходы к "лучшей практике" для синхронизации библиотек (путь установки, версия и т.д.) на большом количестве распределенных узлов?