Как извлечь заметки и выделенные части из файлов PDF

Есть ли способ извлечь выделенный текст и заметки из файла PDF программно? Любой язык приветствуется. Я нашел несколько библиотек с Python, Java и PHP, но ни один из них не выполняет эту работу.

Я не знаю, возможно ли это или нет. Я также знаю, что некоторые программы создают дополнительные файлы для хранения такой информации (если я не ошибаюсь, Kindle генерирует другой файл.), Но в настоящее время они недоступны.

Ответ 1

Хорошо, после поиска я нашел решение для экспорта выделенного текста из pdf в текстовый файл. Не очень сложно:

  • Во-первых, вы выделяете текст с помощью инструмента, который вы хотите использовать (в моем случае я выделяю, когда читаю iPad на устройстве Goodreader).

  • Перенесите свой pdf файл на компьютер и откройте его с помощью Skim (читателя в формате PDF, который можно легко найти в Интернете)

  • В FILE выберите CONVERT NOTES и конвертируйте все примечания вашего документа в SKIM NOTES.

  • Что все: просто перейдите в EXPORT и выберите EXPORT SKIM NOTES. Он будет экспортировать вам список вашего выделенного текста. После открытия этот список можно снова экспортировать в файл формата txt.

Не много работы, и результат фантастический.