Скажем, я хочу объединить информацию, связанную с конкретной нишей из многих источников (может быть, путешествия, технологии или что-то еще). Как мне это сделать?
У вас есть паук/искатель, который сканирует веб-страницы для поиска необходимой мне информации (как я скажу сканеру, что сканировать, потому что я не хочу получать всю сеть?)? Затем система индексирования индексирует и упорядочивает информацию, которую я сканирую, а также являюсь поисковой системой?
Используются ли такие системы, как Nutch lucene.apache.org/nutch, для того, что я хочу? Вы рекомендуете что-то еще?
Или вы можете порекомендовать другой подход?
Например, как построен Techmeme.com? (это агрегатор технологических новостей, и он полностью автоматизирован - только недавно они добавили некоторую человеческую интервенцию). Что потребуется, чтобы построить такую услугу?
Или как Kayak.com объединяет свои данные? (Это служба агрегатора путешествий.)