Конвертировать pdf в svg

Я хочу конвертировать PDF в SVG, пожалуйста, предложите некоторые библиотеки/исполняемые файлы, которые смогут сделать это эффективно. Я написал свою собственную java-программу, используя библиотеки apache PDFBox и Batik -

PDDocument document = PDDocument.load( pdfFile );
DOMImplementation domImpl =
    GenericDOMImplementation.getDOMImplementation();

// Create an instance of org.w3c.dom.Document.
String svgNS = "http://www.w3.org/2000/svg";
Document svgDocument = domImpl.createDocument(svgNS, "svg", null);
SVGGeneratorContext ctx = SVGGeneratorContext.createDefault(svgDocument);
ctx.setEmbeddedFontsOn(true);

// Ask the test to render into the SVG Graphics2D implementation.

    for(int i = 0 ; i < document.getNumberOfPages() ; i++){
        String svgFName = svgDir+"page"+i+".svg";
        (new File(svgFName)).createNewFile();
        // Create an instance of the SVG Generator.
        SVGGraphics2D svgGenerator = new SVGGraphics2D(ctx,false);
        Printable page  = document.getPrintable(i);
        page.print(svgGenerator, document.getPageFormat(i), i);
        svgGenerator.stream(svgFName);
    }

Это решение отлично работает, но размер полученных svg файлов в огромном размере (во много раз больше, чем в формате pdf). Я выяснил, где проблема, глядя на svg в текстовом редакторе. он охватывает каждый символ в исходном документе в своем собственном блоке, даже если свойства шрифта символов одинаковы. Например, слово hello будет отображаться как 6 различных текстовых блоков. Есть ли способ исправить вышеуказанный код? или предложите другое решение, которое будет работать более эффективно.

Ответ 1

Inkscape также может использоваться для преобразования PDF в SVG. Это на самом деле замечательно хорошо, и хотя код, который он генерирует, немного вздут, по крайней мере, у него нет особой проблемы, с которой вы сталкиваетесь в своей программе. Я думаю, что было бы сложно интегрировать его непосредственно в Java, но inkscape обеспечивает удобный интерфейс командной строки для этой функции, поэтому, возможно, самым простым способом получить доступ к ней будет системный вызов.

Чтобы использовать интерфейс командной строки Inkscape для преобразования PDF в SVG, используйте:

inkscape -l out.svg in.pdf

Что вы, вероятно, можете вызвать, используя:

Runtime.getRuntime().exec("inkscape -l out.svg in.pdf")

http://download.oracle.com/javase/1.4.2/docs/api/java/lang/Runtime.html#exec%28java.lang.String%29

Я думаю, что exec() является синхронным и возвращается только после завершения процесса (хотя я не уверен на этом на 100%), поэтому после этого вы сможете просто читать "out.svg". В любом случае Googling "java system call" даст больше информации о том, как правильно выполнить эту часть.

Ответ 2

Посмотрите pdf2svg:

Использовать

pdf2svg <input.pdf> <output.svg> [<pdf page no. or "all" >]

При использовании all укажите имя файла с %d в нем (которое будет заменено номером страницы).

pdf2svg input.pdf output_page%d.svg all

И для некоторых устранения неполадок см.: http://www.calcmaster.net/personal_projects/pdf2svg/

Ответ 3

pdftk 82page.pdf burst
sh to-svg.sh 

содержимое to-svg.sh

#!/bin/bash
FILES=burst/*
for f in $FILES
do
  inkscape -l "$f.svg" "$f"
done