Я ищу библиотеку PDF, которая позволит мне извлечь текст из PDF-документа. Я посмотрел на PyPDF, и это может извлечь текст из документа PDF очень красиво. Проблема заключается в том, что если в документе есть таблицы, текст в таблицах извлекается в соответствии с остальной частью текста документа. Это может быть проблематично, потому что он создает разделы текста, которые не являются полезными и выглядят искаженными (например, множество чисел, вырванных вместе).
Я ищу что-то более продвинутое. Я хотел бы извлечь текст из PDF-документа, исключая любые таблицы и специальное форматирование. Есть ли там библиотека, которая делает это? Или я вынужден сделать некоторую пост-обработку выходного текста, чтобы избавиться от этих разделов?