У меня есть файл PDF, который выводит из OCR-процессора, этот OCR-процессор распознает изображение, добавляет текст в pdf, но в конце помещает изображение низкого качества вместо оригинального (я понятия не имею, почему кто-то будут делать это, но они это делают).
Итак, я хотел бы получить этот PDF файл, удалить поток изображений и оставить текст в покое, чтобы я мог его получить и импортировать (используя функцию импорта страницы iText) в PDF файл, который я создаю себе с реальным изображением.
И прежде чем кто-то спросит, я уже пытался использовать другой инструмент для извлечения текстовых координат (JPedal), но когда я рисую текст в моем PDF файле, он не находится в том же положении, что и исходный.
Я бы предпочел сделать это на Java, но если другой инструмент может сделать это лучше, просто дайте мне знать. И это может быть только удаление изображений, я могу жить с PDF с рисунками там.