Преобразование PDF в HTML файл Java API

Я хочу преобразовать файл pdf в html файл с помощью java-приложения. Файл PDF содержит некоторые изображения, текст и т.д. Кто-нибудь знает хороший API Java? (просьба не предлагать Aspose). Я пробовал Apache PDFBox, но не удовлетворен

Ответ 1

CSSBox Pdf2Dom - это библиотека Java, которая позволяет (среди прочего) конвертировать PDF в HTML. В дистрибутиве содержится даже инструмент командной строки PDFToHTML на основе этой библиотеки, чтобы вы могли проверить, соответствуют ли результаты вашим потребностям. Однако преобразование PDF в HTML всегда сложно, как указано выше. Результаты зависят от сложности и структуры конкретного PDF файла, поэтому различные инструменты могут быть подходящими для разных PDF файлов.

Ответ 2

Отъезд

JPedal, он очень хорошо обрабатывает встроенные шрифты, но не свободен.

IcePDF, он бесплатный, но afaik он может извлекать текст/изображения или отображать PDF в изображение.

public class QHyperArticleHtmlBuilder extends QHtmlBuilder {
    QStyle anchorStyle = createStyle("anchorStyle", a);
    QStyle sectionStyle = createStyle("sectionStyle", div);
    QStyle subsectionStyle = createStyle("subsectionStyle", div);
    ...    
    public String buildSubSectionHeading(String anchorName, String text) {
        return buildAnchorHeading(subsectionStyle, anchorName, text);
    }

    protected String buildAnchorHeading(QStyle divStyle, 
            String anchorName, String text) {
        QMutableElement element = create(p);
        element.add(br);
        element.add(create(a, anchorStyle, name.create(anchorName)))
        .add(create(div, divStyle, text));
        return element.buildHtml();
    }

    public String buildLink(String url, String label) {
        QMutableElement element = create(a, anchorStyle, href.create(url));
        element.add(create(span, underlineStyle))
        .add(create(span, linkStyle, label));
        return element.buildHtml();
    }
}


pre.javaStyle {
  font-family: courier new, courier, mono;
  background-color: #fbfbfb;
  font-size: 11pt;
  width: 800px;
  border: dashed 1px;
  border-color: lightgray;
  padding-left: 4px;
}

Ресурсы здесь

Ответ 3

Вы можете попробовать использовать Print2Flash: www.print2flash.com. Он может конвертировать в HTML из Java не только pdf файлы, но и другие документы: документы Office, чертежи AutoCAD и т.д. Он решил все потребности публикации документов для нашей компании веб-сайт.

Ответ 5

Попробуйте нашу библиотеку Java под названием jPDFWeb, которая сохраняет шрифты и разрешение изображения из исходного PDF. Вы можете загрузить свой собственный PDF файл и попробовать демо-версию.

https://www.qoppa.com/pdfhtml/