У меня есть (такие же) данные, сохраненные как файл изображения GIF, и как файл PDF, и я хочу проанализировать его на HTML или XML. Данные на самом деле являются меню моего университетского кафетерия. Это означает, что есть новая версия файла, которая должна анализироваться каждую неделю! В общем случае файлы содержат текст заголовка и нижнего колонтитула, а также таблицу, заполненную другими данными. Я прочитал несколько сообщений о stackoverflow, и я также начал попытки проанализировать данные таблицы как HTML/XML:
- PDFBox || iText (Java)
- Импорт документов Google
- PDF2HTML || PDF2Table
GIF
- Тессеракт-OCR
У меня есть лучший результат от разбора PDF файла с помощью PDFBox, но все же (поскольку меню меняется еженедельно), он недостаточно надежный. HTML, который я получаю, включает в себя иногда больше, иногда меньше "абзацев" (<p>
), так что я не могу правильно анализировать данные.
Вот почему я хотел бы знать, есть ли другой способ сделать это?