Я запускаю потоковое задание в Hadoop (на Amazon EMR) с картографом и редуктором, написанным на Python. Я хочу знать о скоростях, которые я испытал бы, если бы я реализовал один и тот же инструмент отображения и редуктора в Java (или использовал Pig).
В частности, я ищу опыт людей при переходе от потоковой передачи к пользовательским развертываниям jar и/или Pig, а также к документам, содержащим сравнительные сравнения этих параметров. Я нашел этот question, но ответы для меня не достаточно конкретны. Я не ищу сравнения между Java и Python, но сравнения между настраиваемым развертыванием jar в потоках Hadoop и Python.
Моя работа заключается в чтении счетчиков NGram из набора данных NGGR Google Books и вычислений совокупных мер. Похоже, загрузка процессора на вычислительных узлах близка к 100%. (Я хотел бы услышать ваше мнение о различиях в работе с привязкой к процессору или работе с привязкой к IO).
Спасибо!
AMAC