Может ли кто-нибудь рекомендовать библиотеку /API для извлечения текста и изображений из PDF? Нам нужно иметь возможность получить текст, который содержится в заранее известных областях документа, поэтому API должен будет предоставить нам позиционную информацию каждого элемента на странице.
Мы хотели бы, чтобы эти данные выводились в формате xml
или json
. В настоящее время мы смотрим на PdfTextStream, который кажется довольно хорошим, но хотелось бы услышать опыт и предложения других людей.
Существуют ли альтернативы (коммерческие или бесплатные) для извлечения текста из pdf программно?