Может кто-нибудь, пожалуйста, исправьте мое понимание о сохранении Искры.
Если мы выполнили кеш() на RDD, его значение кэшируется только на тех узлах, где на самом деле вычислялось RDD. Значение: если существует кластер из 100 узлов, а RDD вычисляется в разделах первого и второго узлов. Если мы будем кэшировать этот RDD, то Spark будет кэшировать его значение только в первом или втором рабочих узлах. Поэтому, когда это приложение Spark пытается использовать этот RDD на более поздних этапах, тогда драйвер Spark должен получить значение от первых/вторых узлов.
Правильно ли я?
(ИЛИ)
Это то, что значение RDD сохраняется в памяти драйвера, а не на узлах?