Итак, при запуске из pyspark я бы вводил (без указания каких-либо контекстов):
df_openings_latest = sqlContext.sql('select * from experian_int_openings_latest_orc')
.. и он отлично работает.
Однако, когда я запускаю свой script из spark-submit
, например
spark-submit script.py
я поставлю следующее в
from pyspark.sql import SQLContext
from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName('inc_dd_openings')
sc = SparkContext(conf=conf)
sqlContext = SQLContext(sc)
df_openings_latest = sqlContext.sql('select * from experian_int_openings_latest_orc')
Но это дает мне ошибку
pyspark.sql.utils.AnalysisException: u'Table не найден: experian_int_openings_latest_orc; '
Поэтому он не видит мою таблицу.
Что я делаю неправильно? Пожалуйста, помогите
P.S. Версия Spark 1.6 работает на Amazon EMR