в чем разница между SparkSession и SparkContext?

Я знаю только разницу в версии, но не знаю, как это работает. т.е. Sparksession имеет внутренне искровой текст и conf.

Ответ 1

В более старой версии Spark были разные контексты, которые были точкой входа в различные api (sparkcontext для основного api, sql-контекста для spark-sql api, потокового контекста для Dstream-api и т.д.), Это было источником путаницы для разработчик и был точкой оптимизации для команды искры, поэтому в самой последней версии искры есть только одна точка входа (искровая сессия), и из этого вы можете получить другую другую точку входа (контекст искры, потоковый контекст и т.д.).....)

Ответ 2

Вот пример:

colName = "name of the column on wich you want to partition the query"
lowerBound = 0L
upperBound = xxxL // this is the max count in our database
numPartitions = 5 // example
spark.read.jdbc(url,tablename,colName,lowerBound,numPartitions,props).count() // this is a count but can be any query

Счет будет выполнен параллельно, и результат пойдет в 5 разделов rdd