В "Улье", я считаю, что подсчет (отчет) будет более вероятным, чем групповое, чтобы привести к несбалансированной нагрузке на редукторы и в конечном итоге привести к одному грубому редуктору. Пример запроса ниже.
Почему?
Пример запроса:
select count(distinct user)
from some_table
Версия с групповым (предлагается как быстрее):
select count(*) from
(select user
from some_table
group by user) q
Примечание: слайд 26 эта презентация описывает проблему.