У меня есть доступ к компьютеру под управлением Linux с 20 ядрами, 92 ГБ ОЗУ и 100 ГБ на жестком диске. Я хотел бы использовать Hadoop для задания большого количества данных (более 1M слов, более 1B словосочетаний). Может ли псевдораспределенный режим или полностью распределенный режим наилучшим образом использовать мощность Hadoop на одном компьютере?
Для моего предполагаемого использования Hadoop, потери данных и необходимость повторного запуска задания из-за ошибки node не являются большими проблемами.
Этот проект с участием Контейнеры Linux использует полностью распределенный режим. В этой статье описывается псевдораспределенный режим; более подробную информацию можно найти здесь.