Недавно я начал работать над nutch, и я пытаюсь понять, как это работает. Насколько я знаю, Nutch в основном используется для сканирования в Интернете, а solr/Lucene используется для индексации и поиска. Но когда я читаю документацию по ореху, он говорит, что nutch также инвертирует индексирование. Использует ли Lucene внутренне для индексирования или имеет ли какую-то другую библиотеку для индексирования? Если для индексирования используется solr/lucene, то зачем нужно настраивать solr с помощью nutch, как говорится в учебнике nutch?
Выполняется ли индексирование по умолчанию. Я имею в виду, что я запускаю эту команду, чтобы начать сканирование. Здесь индексируется?
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
Или индексирование происходит только в этом случае. (Согласно руководству: если у вас уже установлено ядро Solr и вы хотите его индексировать, вам необходимо добавить параметр -solr в команду обхода, например.)
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5