Apache Nutch - Проблемы с путями

Я пытаюсь настроить Apache Nutch на обход URL-адресов, следуя этому руководству. Будучи старшим гидом (руководство для 1.x, я использую 2.3), я внес необходимые изменения в структуру. Однако, когда я пытаюсь запустить обход, я получаю эту ошибку:

[email protected]:~# /usr/local/nutch/framework/apache-nutch-2.3/src/bin/crawl urls FirstCrawl 2
No SOLRURL specified. Skipping indexing.
Injecting seed URLs
/usr/local/nutch/framework/apache-nutch-2.3/src/bin/nutch inject urls -crawlId FirstCrawl
Error: Could not find or load main class org.apache.nutch.crawl.InjectorJob
Error running:
  /usr/local/nutch/framework/apache-nutch-2.3/src/bin/nutch inject urls -crawlId FirstCrawl
Failed with exit value 1.
[email protected]:~#

Будучи новым для Ubuntu (14.04), мне трудно управлять структурой каталогов и путями здесь.

InjectorJob находится в /usr/local/nutch/framework/apache-nutch-2.3/src/java/org/apache/nutch/crawl

JAVA_HOME установлен на /usr/lib/jvm/java-7-openjdk-amd64

Ответ 1

Убедитесь, что вы уже скомпилировали исходный код Nutch. Затем запустите команду crawl из ${APACHE_NUTCH_HOME}/runtime/local (или ${APACHE_NUTCH_HOME}/runtime/deploy/bin).

Надеюсь, что это поможет,

Le Quoc Do