Похоже, что метод широковещания делает распределенную копию RDD в моем кластере. С другой стороны, выполнение метода cache() просто загружает данные в память.
Но я не понимаю, как кешированный RDD распространяется в кластере.
Не могли бы вы рассказать мне, в каких случаях следует использовать методы rdd.cache()
и rdd.broadcast()
?