Я вижу, что SparkSession
не имеет метода .parallelize()
. Нужно ли снова использовать SparkContext
для создания RDD?. Если это так, создается как SparkSession
, так и SparkContext
в одной программе?
Parallelize() при использовании SparkSession в Spark 2.0
Ответ 1
Как только вы создадите SparkSession, вы можете получить исходный SparkContext, созданный с ним, как следует:
Давайте рассмотрим, что SparkSession уже определен:
val spark : SparkSession = ???
Теперь вы можете получить SparkContext:
val sc = spark.sparkContext
Ответ 2
Мне нужно импортировать искровые импликации, чтобы создать файл данных, не вызывая распараллеливание.
import org.apache.spark.sql.SparkSession
val spark = SparkSession
.builder()
.appName("Spark SQL basic example")
.master("local")
// .config("spark.some.config.option", "some-value")
.getOrCreate()
import spark.implicits._
val df = Seq(
(1441637160, 10.0),
(1441637170, 20.0),
(1441637180, 30.0),
(1441637210, 40.0),
(1441637220, 10.0),
(1441637230, 0.0)).toDF("timestamp", "value")
df.printSchema()