В нескольких местах указано, что число редукторов по умолчанию в задаче Hadoop равно 1. Вы можете использовать символ mapred.reduce.tasks, чтобы вручную установить количество редукторов.
Когда я запускаю работу Hive (на Amazon EMR, AMI 2.3.3), у нее есть некоторое количество редукторов больше одного. Глядя на настройки работы, что-то установило mapred.reduce.tasks, я полагаю, что Hive. Как выбрать этот номер?
Примечание: вот некоторые сообщения при запуске задания Hive, которое должно быть ключом:
...
Number of reduce tasks not specified. Estimated from input data size: 500
In order to change the average load for a reducer (in bytes):
set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
set mapred.reduce.tasks=<number>
...