Nutch vs solr indexing

Недавно я начал работать над nutch, и я пытаюсь понять, как это работает. Насколько я знаю, Nutch в основном используется для сканирования в Интернете, а solr/Lucene используется для индексации и поиска. Но когда я читаю документацию по ореху, он говорит, что nutch также инвертирует индексирование. Использует ли Lucene внутренне для индексирования или имеет ли какую-то другую библиотеку для индексирования? Если для индексирования используется solr/lucene, то зачем нужно настраивать solr с помощью nutch, как говорится в учебнике nutch?

Выполняется ли индексирование по умолчанию. Я имею в виду, что я запускаю эту команду, чтобы начать сканирование. Здесь индексируется?

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

Или индексирование происходит только в этом случае. (Согласно руководству: если у вас уже установлено ядро Solr и вы хотите его индексировать, вам необходимо добавить параметр -solr в команду обхода, например.)

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

Ответ 1

Взгляд здесь может оказаться полезным. Когда вы запускаете первую команду:

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

вы сканируете, что означает, что nutch создаст свои собственные внутренние данные, состоящие из:

crawldb
linkdb
набор сегментов

вы можете увидеть их в следующих каталогах, которые создаются при запуске команды обхода:

ползать /crawldb
ползать /linkdb
ползать/сегменты

Вы можете думать об этих данных как о какой-то базе данных, где nutch хранит данные обхода. Это не имеет ничего общего с инвертированным индексом.

После процесса обхода вы можете индексировать свои данные в экземпляре Solr. Вы можете сканировать, а затем индексировать одну команду, которая является второй командой из вашего вопроса:

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

В противном случае вы можете запустить вторую команду после команды crawl, специфичной для индексирования в Solr, но вы должны указать путь к crawldb, linkdb и сегментам:

bin/nutch solrindex http://localhost:8983/solr/ crawldb -linkdb crawldb/linkdb crawldb/segments/*

Ответ 2

Возможно, вас путают устаревшие версии Nutch и связанная онлайн-документация. Первоначально он создал свой собственный индекс и имел свой собственный интерфейс веб-поиска. Использование Solr стало вариантом, требующим дополнительной настройки и возиться. Начиная с 1.3 части индексации и сервера были удалены, и теперь он предположил, что Nutch будет использовать Solr.