Индексирование документов Word и PDF с помощью Sphinx

У меня есть сайт, на котором пользователи загружают документы в формате .doc и .pdf. Я использую Sphinx для полнотекстового поиска в моей базе данных SQL (MySQL). Каков наилучший способ индексирования этих форматов файлов с помощью Sphinx?

Ответ 1

К сожалению, Sphinx не может напрямую индексировать эти типы файлов. Вам нужно либо импортировать текстовое содержимое в базу данных, либо в формат XML, который Sphinx может понять.

Ответ 2

Метод, который я использую для этого, - pdf2text и antiword. Я использую оба из них, чтобы сбрасывать содержимое PDF файлов и текстовых документов в базу данных. Оттуда легко проползти Сфинкс.