У меня есть набор данных из 200 миллионов + записей, и я хочу построить выделенный сервер, чтобы использовать решение для решения типа. Lucene представляет интерес, учитывая ее популярность и тип лицензии, но я открыт для других предложений с открытым исходным кодом. Я ищу совет, сказки из окопов или даже лучшую прямую инструкцию о том, что мне понадобится в отношении объема аппаратного обеспечения и структуры программного обеспечения. Требования:
Должно быть:
- Возможность делать начинается с соответствия подстроки (я набираю в 'st', и он должен соответствовать "Stephen" )
- Возможность быстро возвращать результаты, я бы сказал, что 500ms - это верхняя граница.
Приятно иметь:
- Возможность передавать информацию релевантности в процесс индексирования, так что, например, более популярные термины будут возвращены впереди других, а не только в алфавитном порядке, а также в стиле Google.
- Подстрока подстроки в словах, например ('st' будет соответствовать "бестселлеру" )
Примечание:
- Этот индекс будет использоваться исключительно для типа вперед и не должен обслуживать стандартные поисковые запросы.
- Я не беспокоюсь о получении советов о том, как настроить внешний интерфейс или AJAX, если индекс можно запросить как услугу или напрямую через Java-код.
Повысьте количество голосов за любую полезную информацию, которая позволяет мне приблизиться к решению на уровне уровня предприятия