Я хочу преобразовать файл pdf в html файл с помощью java-приложения. Файл PDF содержит некоторые изображения, текст и т.д. Кто-нибудь знает хороший API Java? (просьба не предлагать Aspose). Я пробовал Apache PDFBox, но не удовлетворен
Преобразование PDF в HTML файл Java API
Ответ 1
CSSBox Pdf2Dom - это библиотека Java, которая позволяет (среди прочего) конвертировать PDF в HTML. В дистрибутиве содержится даже инструмент командной строки PDFToHTML на основе этой библиотеки, чтобы вы могли проверить, соответствуют ли результаты вашим потребностям. Однако преобразование PDF в HTML всегда сложно, как указано выше. Результаты зависят от сложности и структуры конкретного PDF файла, поэтому различные инструменты могут быть подходящими для разных PDF файлов.
Ответ 2
Отъезд
JPedal, он очень хорошо обрабатывает встроенные шрифты, но не свободен.
IcePDF, он бесплатный, но afaik он может извлекать текст/изображения или отображать PDF в изображение.
public class QHyperArticleHtmlBuilder extends QHtmlBuilder {
QStyle anchorStyle = createStyle("anchorStyle", a);
QStyle sectionStyle = createStyle("sectionStyle", div);
QStyle subsectionStyle = createStyle("subsectionStyle", div);
...
public String buildSubSectionHeading(String anchorName, String text) {
return buildAnchorHeading(subsectionStyle, anchorName, text);
}
protected String buildAnchorHeading(QStyle divStyle,
String anchorName, String text) {
QMutableElement element = create(p);
element.add(br);
element.add(create(a, anchorStyle, name.create(anchorName)))
.add(create(div, divStyle, text));
return element.buildHtml();
}
public String buildLink(String url, String label) {
QMutableElement element = create(a, anchorStyle, href.create(url));
element.add(create(span, underlineStyle))
.add(create(span, linkStyle, label));
return element.buildHtml();
}
}
pre.javaStyle {
font-family: courier new, courier, mono;
background-color: #fbfbfb;
font-size: 11pt;
width: 800px;
border: dashed 1px;
border-color: lightgray;
padding-left: 4px;
}
Ресурсы здесь
Ответ 3
Вы можете попробовать использовать Print2Flash: www.print2flash.com. Он может конвертировать в HTML из Java не только pdf файлы, но и другие документы: документы Office, чертежи AutoCAD и т.д. Он решил все потребности публикации документов для нашей компании веб-сайт.
Ответ 4
возможно, вы можете использовать этот API: https://market.mashape.com/netservice/convert-pdf-to-html работает для java, node, php и т.д.
Ответ 5
Попробуйте нашу библиотеку Java под названием jPDFWeb, которая сохраняет шрифты и разрешение изображения из исходного PDF. Вы можете загрузить свой собственный PDF файл и попробовать демо-версию.