Я запускаю программу pyspark:
$ export SPARK_HOME=
$ export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.9-src.zip
$ python
И код py:
from pyspark import SparkContext, SparkConf
SparkConf().setAppName("Example").setMaster("local[2]")
sc = SparkContext(conf=conf)
Как добавить jar-зависимости, например, databricks csv jar? Используя командную строку, я могу добавить пакет следующим образом:
$ pyspark/spark-submit --packages com.databricks:spark-csv_2.10:1.3.0
Но я не использую ни одного из них. Программа является частью большого рабочего процесса, который не использует spark-submit. Я должен иметь возможность запускать мою. /foo.py программу, и она должна работать.
- Я знаю, что вы можете установить свойства искры для extraClassPath, но вам нужно скопировать файлы JAR на каждый узел?
- Пробовал conf.set("spark.jars", "jar1, jar2"), который тоже не работал с исключением py4j CNF