Я запускаю Hadoop-задание, используя Hive на самом деле, который должен иметь uniq
строки во многих текстовых файлах. На шаге уменьшения он выбирает самую последнюю временную запись для каждой клавиши.
Гарантирует ли Hadoop, что каждая запись с одним и тем же ключом, выводимая на шаге карты, перейдет к одному редуктору, даже если многие коммутаторы работают по кластеру?
Я волнуюсь, что вывод картографа может быть разделен после того, как тасование произойдет посередине набора записей с одним и тем же ключом.