Я хочу извлечь другой контент из файла PDF в Java:
- Полный видимый текст
- изображения
- ссылки
Можно ли также получить следующее?
- метатеги документов, такие как название, описание или автор.
- только заголовки
- если документ содержит форму
Мне не нужно манипулировать или делать PDF файлы. Какая библиотека лучше всего подходит для этой цели?
UPDATE
ОК, я попробовал PDFBox:
Document luceneDocument = LucenePDFDocument.getDocument(new File(path));
Field contents = luceneDocument.getField("contents");
System.out.println(contents.stringValue());
Но вывод равен null. Поле "summary" в порядке, хотя.
Следующий снипп отлично работает.
PDDocument doc = PDDocument.load(path);
PDFTextStripper stripper = new PDFTextStripper();
String text = stripper.getText(doc);
System.out.println(text);
doc.close();
Но тогда я не знаю, как извлечь изображения, ссылки и т.д.
ОБНОВЛЕНИЕ 2
Я нашел пример, как извлечь изображения, но я до сих пор не получил ответа о том, как извлечь:
- ссылки
- метатеги документов, такие как название, описание или автор.
- только заголовки
- если документ содержит форму