Одним из основных примеров, которые используются для демонстрации мощности MapReduce, является Тестер Terasort. У меня возникли проблемы с пониманием основ алгоритма сортировки, используемого в среде MapReduce.
Для меня сортировка просто включает определение относительного положения элемента по отношению ко всем другим элементам. Поэтому сортировка предполагает сравнение "всего" с "всем". Ваш средний алгоритм сортировки (быстрый, пузырь,...) просто делает это разумным способом.
В моем сознании разделение набора данных на многие части означает, что вы можете сортировать одну часть, а затем вам все равно придется интегрировать эти фрагменты в "полный" полностью отсортированный набор данных. Учитывая, что терабайтный набор данных распределен по тысячам систем, я ожидаю, что это будет огромная задача.
Итак, как это делается? Как работает этот алгоритм сортировки MapReduce?
Спасибо, что помогли мне понять.