Hadoop на сервере Windows

Я подумываю об использовании hadoop для обработки больших текстовых файлов на моих существующих серверах Windows 2003 (около 10 четырехъядерных процессоров с 16 ГБ ОЗУ)

Вопросы:

Есть ли хорошее руководство по настройке кластера hadoop на окнах?
Каковы требования? java + cygwin + sshd? Что-нибудь еще?
HDFS, он хорошо играет в окнах?
Я хотел бы использовать hasoop в потоковом режиме. Любой совет, инструмент или трюк для разработки моего собственного картографа/редуктора в С#?
Что вы используете для отправки и мониторинга заданий?

Спасибо

Ответ 1

Из Документация Hadoop:

Win32 поддерживается как разработка Платформа. Распределенная операция не был хорошо протестирован на Win32, поэтому он не поддерживается как производство платформы.

Я думаю, что это означает: "Ты сам по себе".

Тем не менее, может быть надежда, если вы не будете торопливыми в отношении установки Cygwin и прокладки Java, в соответствии с страницами "Начало работы" вики Hadoop:

Можно также запустить Hadoop демонов в качестве служб Windows с использованием Java Service Wrapper (скачать это отдельно). Это все еще требует Cygwin будет установлен как Hadoop требуется команда df.

Я предполагаю, что суть в том, что это не кажется невозможным, но вы будете плавать вверх по течению. Теперь я сделал несколько инсталляций Hadoop (для Linux для производства, для Mac для разработчиков), и я бы не стал беспокоиться о Windows, когда это было так просто на других платформах.

Ответ 2

В то время как не ответ, который вы, возможно, захотите услышать, я бы настоятельно рекомендовал перепрофилировать машины, скажем, серверы Linux и запустить Hadoop. Вы получите преимущества от учебников и опыта и тестирования, выполненных на этой платформе, и потратите свое время на решение бизнес-задач, а не на операционные проблемы.

Однако вы все еще можете писать свои задания на С#. Поскольку Hadoop поддерживает "потоковое" внедрение, вы можете писать свои вакансии на любом языке. С каркасом Mono вы должны иметь возможность использовать практически любой код .NET, написанный на платформе Windows, и просто запускать тот же двоичный файл в Linux.

Вы также можете легко получить доступ к HDFS из Windows - хотя я не рекомендую запускать службы Hadoop в Windows, вы можете запустить клиент DFS с платформы Windows для копирования файлов из распределенной файловой системы и из нее.

Для отправки и мониторинга заданий я думаю, что вы в основном сами по себе... Я не думаю, что есть еще какие-то хорошие системы общего назначения, разработанные для управления работой Hadoop.

Ответ 3

Если вы ищете карту/сокращение, вы можете попробовать взглянуть на новую карту/уменьшить маску MySpace, которая работает на окнах http://qizmt.myspace.com/