Я использую ноутбук Jupyter с Pyspark со следующим изображением докеры: Jupyter all-spark -notebook
Теперь я хотел бы написать приложение pyspark streaming, которое потребляет сообщения от Kafka. В руководстве Руководство по интеграции Spark-Kafka описывается, как развернуть такое приложение с помощью spark-submit (требуется привязка внешнего баннера - объяснение в 3. Развертывание). Но поскольку я использую ноутбук Jupyter, я никогда не запускаю команду spark-submit
, я предполагаю, что он будет запущен в спину, если я нажму кнопку execute.
В команде spark-submit
вы можете указать некоторые параметры, один из которых - -jars
, но мне непонятно, как я могу установить этот параметр из ноутбука (или извне через переменные среды?). Я предполагаю, что могу связать эту внешнюю банку динамически с помощью объекта SparkConf
или SparkContext
. Кто-нибудь знает, как правильно выполнить привязку из ноутбука?