Искатель должен иметь расширяемую архитектуру, позволяющую изменять внутренний процесс, например, выполнять новые шаги (предварительный парсер, парсер и т.д.)
Я нашел проект Heritrix (http://crawler.archive.org/).
Но есть и другие приятные проекты?