Я использую python на Spark и хотел бы получить csv в dataframe.
Документация для Spark SQL странно не дает объяснений CSV в качестве источника.
Я нашел Spark-CSV, однако у меня есть проблемы с двумя частями документации:
-
"This package can be added to Spark using the --jars command line option. For example, to include it when starting the spark shell: $ bin/spark-shell --packages com.databricks:spark-csv_2.10:1.0.3"
Должен ли я действительно добавлять этот аргумент каждый раз, когда я запускаю pyspark или spark-submit? Это кажется очень неэлегантным. Разве нет способа импортировать его в python, а не перегружать его каждый раз? -
df = sqlContext.load(source="com.databricks.spark.csv", header="true", path = "cars.csv")
Даже если я сделаю это, это не сработает. Что означает аргумент "source" в этой строке кода? Как просто загрузить локальный файл в Linux, скажем "/Spark_Hadoop/spark-1.3.1-bin-cdh4/cars.csv"?