В настоящее время я разрабатываю систему полнотекстового поиска, в которой пользователи выполняют текстовые запросы в отношении документов MS Office и PDF, а результат возвращает список документов, которые наилучшим образом соответствуют запросу. Затем пользователь будет выбирать любой возвращенный документ и просматривать этот документ в MS Word, Excel или в программе просмотра PDF.
Могу ли я использовать ElasticSearch или Solr для импорта необработанных двоичных документов (то есть .docx,.xlsx,.pdf файлов) в его "хранилище данных", а затем экспортировать документ в пользовательское устройство по команде для просмотра.
Раньше я использовал MongoDB 2.6.6 для импорта необработанных файлов в GridFS и извлеченного текста в отдельную коллекцию (коллекция содержала текстовый индекс), и это работало нормально. Тем не менее, полнотекстовый поиск MongoDB является довольно простым, и поэтому теперь я ищу либо Solr, либо ElasticSearch для выполнения более сложного поиска текста.
Ник