Ошибка подключения в Apache Pig

Я запускаю Apache Pig.11.1 с Hadoop 2.0.5.

Самые простые задания, которые я запускаю в Pig, работают отлично.

Однако, когда я пытаюсь использовать GROUP BY для большого набора данных или оператора LIMIT, я получаю следующие ошибки соединения:

2013-07-29 13:24:08,591 [main] INFO  org.apache.hadoop.mapred.ClientServiceDelegate - Application state is completed. FinalApplicationStatus=SUCCEEDED. Redirecting to job history server 
013-07-29 11:57:29,421 [main] INFO  org.apache.hadoop.ipc.Client - Retrying connect to server: 0.0.0.0/0.0.0.0:10020. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)

2013-07-29 11:57:30,421 [main] INFO  org.apache.hadoop.ipc.Client - Retrying connect to server: 0.0.0.0/0.0.0.0:10020. Already tried 1 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)

2013-07-29 11:57:31,422 [main] INFO  org.apache.hadoop.ipc.Client - Retrying connect to server: 0.0.0.0/0.0.0.0:10020. Already tried 2 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)
...
2013-07-29 13:24:18,597 [main] INFO  org.apache.hadoop.ipc.Client - Retrying connect to server: 0.0.0.0/0.0.0.0:10020. Already tried 9 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)
2013-07-29 13:24:18,598 [main] ERROR org.apache.hadoop.security.UserGroupInformation - PriviledgedActionException as:gpadmin (auth:SIMPLE) cause:java.io.IOException

Странно то, что после того, как эти ошибки появятся примерно на 2 минуты, они остановятся, и правильный вывод появится внизу.

Итак, Hadoop работает нормально и вычисляет правильный вывод. Проблема заключается именно в таких ошибках соединения, которые продолжают появляться.

Оператор LIMIT всегда получает эту ошибку. Это происходит как в режиме MapReduce, так и в локальном режиме. Оператор GROUP BY отлично работает на небольших наборах данных.

Одна вещь, которую я заметил, заключается в том, что всякий раз, когда появляется эта ошибка, задание создало и запускало несколько файлов JAR во время задания. Однако после появления нескольких минут сообщения появляется правильный вывод.

Любые предложения о том, как избавиться от этих сообщений?

Ответ 1

Да, проблема в том, что сервер истории заданий не запущен.

Все, что нам нужно было сделать, чтобы исправить эту проблему, - это ввести эту команду в командную строку:

mr-jobhistory-daemon.sh start historyserver

Эта команда запускает сервер истории заданий. Теперь, если мы введем "jps", мы увидим, что JobHistoryServer запущен, а мои задания Pig больше не тратят время на подключение к серверу.

Ответ 2

Я думаю, эта проблема связана с проблемой конфигурирования хаоп-карты. История сервера работает по умолчанию в localhost, поэтому вам нужно добавить настроенный хост.

<property>
 <name>mapreduce.jobhistory.address</name>
 <value>host:port</value>
</property>

затем выполните эту команду -

mr-jobhistory-daemon.sh start historyserver

Ответ 3

Я использую Hadoop 2.6.0, поэтому мне пришлось делать

$ mr-jobhistory-daemon.sh --config /usr/local/hadoop/etc start historyserver

где,/usr/local/hadoop/etc - мой HADOOP_CONF_DIR.

Ответ 4

Я использую Hadoop 2.2.0. Эта проблема возникла из-за того, что сервер "История" не запущен. Мне пришлось запустить сервер истории. Я использовал следующую команду для запуска сервера истории:

[root @localhost ~] $/usr/lib/hadoop-2.2.0/sbin/mr-jobhistory-daemon.sh запустить historyserver