PDF и текстовый слой

В соответствии с этим сайтом http://www.searchable-pdf.com/content.php?lang=en&c=61 PDF можно искать при добавлении текстового слоя.

Я искал техническую спецификацию PDF. Я думаю, что текст можно сохранить двумя способами в формате PDF: а) в качестве текстового слоя над слоем изображения (как описано на веб-странице выше) б) когда вы создаете PDF из документа Word (с текстом), я не думаю, что Word сохранит весь текст в текстовом слое. Я думаю, он сохранит его в слое изображения? Правильно?

Начиная с PDF 1.4, добавлен XMP (http://en.wikipedia.org/wiki/Extensible_Metadata_Platform). Но что такое XMP? Является ли это "текстовым слоем", о котором я говорил выше?

Если сканер выполняет OCR на изображении, хранит ли он текст в "текстовом слое"? Или поле "XMP"? Это может быть только в том случае, если PDF-версия версии 1.4?

И как я могу определить, есть ли в формате PDF уже текстовые данные? Например: PDF A был отсканирован с помощью OCR, а PDF B - нет. Как я могу узнать, что PDF B должен быть отправлен на отдельный движок OCR?

Ответ 1

В спецификации PDF не упоминается "текстовый слой". Обычно есть только один способ "сохранить" текст: с помощью текста, отображающего операторы. Эти операторы рисуют текст в определенном месте, используя определенный цвет, шрифт, размер шрифта и режим рендеринга текста. Есть несколько режимов рендеринга текста. Чтобы ответить на ваш вопрос, текст может быть видимым или невидимым.

Сканер, который выполняет распознавание текста, отображает как растровое изображение, так и текст в документе PDF. Текст отображается с использованием режима невидимого текста. В результате вы можете выбрать текст с помощью мыши (выделенная область будет отображаться в ожидаемом месте в верхней части изображения), и вы сможете искать текст. Снова результат поиска будет показан в правильном месте.

Что происходит, когда вы генерируете PDF из документа Word, зависит от программного обеспечения, которое вы используете для преобразования. Насколько мне известно, эти конвертеры не генерируют изображение, но они генерируют видимый текст.

XMP - это метаданные, а не визуальные.

И, наконец, что касается вашего вопроса об определении наличия в PDF текстовых данных, вот [аналогичный вопрос - удален с тех пор].

Ответ 2

Я подтвердил ответ Фрэнка Рэм, потому что он "полный".

Позвольте мне добавить несколько деталей:

"Невидимость" текста поступает из Tr, оператора режима отображения текста 3 в формате PDF: "Ни текст заливки, ни штрих" (PDF- 1.7 spec, глава 9.3.6).
Посмотрите на этот вопрос SuperUser: "PDF имеет дополнительный пробел во всех словах после запуска Ghostscript, и мои ответы там, чтобы узнать еще несколько вещей о технических деталях (особенно посмотрите на заголовок" Как мы можем сделать невидимый текст видимым?").