Я начал изучать Apache Spark и очень впечатлен рамкой. Хотя одна вещь, которая меня беспокоит, заключается в том, что во всех презентациях Spark они рассказывают о том, как Spark кэширует RDD, и поэтому несколько операций, которые нуждаются в одних и тех же данных, быстрее, чем другие подходы, такие как уменьшение карты.
Итак, у меня был вопрос: если это так, то просто добавьте механизм кэширования внутри фреймворков MR, таких как Yarn/Hadoop.
Зачем вообще создавать новую структуру?
Я уверен, что здесь что-то не хватает, и вы сможете указать мне на какую-то документацию, которая обучает меня больше искры.