Моя цель - извлечь текст и изображения из файла PDF, анализируя его структуру. Возможности для анализа структуры не являются исчерпывающими; Мне нужно только определить заголовки и абзацы.
Я пробовал несколько разных вещей, но в любом из них я не очень далеко:
- Преобразование PDF в текст. Это не работает для меня, поскольку я теряю изображения и структуру документа.
- Преобразование PDF в HTML. Я нашел несколько инструментов, которые помогли мне в этом, и лучший пока что pdftohtml. Этот инструмент действительно хорош, но я не смог успешно проанализировать HTML.
- Преобразование PDF в XML. То же, что и выше.
У кого-нибудь есть предложения по решению этой проблемы?