Во многих реальных ситуациях, когда вы применяете MapReduce, конечные алгоритмы заканчиваются несколькими шагами MapReduce.
то есть. Map1, Reduce1, Map2, Reduce2 и т.д.
Итак, у вас есть результат последнего сокращения, необходимого в качестве ввода для следующей карты.
Промежуточные данные - это то, что вы (в общем) не хотите сохранять после успешного завершения конвейера. Кроме того, поскольку эти промежуточные данные в целом представляют собой некоторую структуру данных (например, "карта" или "набор" ), вы не хотите прикладывать слишком много усилий для написания и чтения этих пар ключ-значение.
Каков рекомендуемый способ сделать это в Hadoop?
Есть ли (простой) пример, показывающий, как правильно обрабатывать эти промежуточные данные, включая очистку после?