В соответствии с этим сайтом http://www.searchable-pdf.com/content.php?lang=en&c=61 PDF можно искать при добавлении текстового слоя.
Я искал техническую спецификацию PDF. Я думаю, что текст можно сохранить двумя способами в формате PDF: а) в качестве текстового слоя над слоем изображения (как описано на веб-странице выше) б) когда вы создаете PDF из документа Word (с текстом), я не думаю, что Word сохранит весь текст в текстовом слое. Я думаю, он сохранит его в слое изображения? Правильно?
Начиная с PDF 1.4, добавлен XMP (http://en.wikipedia.org/wiki/Extensible_Metadata_Platform). Но что такое XMP? Является ли это "текстовым слоем", о котором я говорил выше?
Если сканер выполняет OCR на изображении, хранит ли он текст в "текстовом слое"? Или поле "XMP"? Это может быть только в том случае, если PDF-версия версии 1.4?
И как я могу определить, есть ли в формате PDF уже текстовые данные? Например: PDF A был отсканирован с помощью OCR, а PDF B - нет. Как я могу узнать, что PDF B должен быть отправлен на отдельный движок OCR?