Какой лучший способ импортировать/читать данные из pdf файлов?

Мы получаем большой объем данных от наших клиентов в pdf файлах в разных форматах [макет], эти файлы, как правило, выводят отчет и обычно правильно аннотируются [обычно не требуется OCR], но не отформатированы достаточно, чтобы простое копирование нескольких сотен страниц текста из акробата не сработало.

Лучшим подходом, который я нашел до сих пор, является запись script для синтаксического анализа почти корректного вывода xml (комментарии недопустимы, и многие символы экранируются различными способами, é становится [[[e9]]] é, $становится\$,% становится \%...) командной строки утилиты pdftoipe (для преобразования файлов PDF для программы под названием ipe), который дает мне текстовые элементы с их позициями на каждой странице [см. пример ниже], который работает достаточно хорошо для отчетов, где одни и те же значения находятся на одном и том же месте на каждой странице, о которой я забочусь, но для этого потребуются дополнительные скрипты для импорта файлов формата [cross-tab] pdf. pdftoipe вовсе не предназначен для этого и в лучшем случае может быть скомпилирован вручную с помощью cygwin для окон.

Есть ли библиотеки, которые легко справляются с некоторыми скриптовыми языками, которые я могу терпеть? Графический инструмент тоже был бы потрясающим. И пони.

вывод pdftoipe этот пример выглядит следующим образом:

<ipe creator="pdftoipe 2006/10/09"><info media="0 0 612 792"/>
<-- Page: 1 1 -->
<page gridsize="8">
<path fill="1 1 1" fillrule="wind">
64.8 144 m
486 144 l
486 727.2 l
64.8 727.2 l
64.8 144 l
h
</path>
<path fill="1 1 1" fillrule="wind">
64.8 144 m
486 144 l
486 727.2 l
64.8 727.2 l
64.8 144 l
h
</path>
<path fill="1 1 1" fillrule="wind">
64.8 144 m
486 144 l
486 727.2 l
64.8 727.2 l
64.8 144 l
h
</path>
<text stroke="1 0 0" pos="0 0" size="18" transformable="yes" matrix="1 0 0 1 181.8 707.88">This is a sample PDF fil</text>
<text stroke="1 0 0" pos="0 0" size="18" transformable="yes" matrix="1 0 0 1 356.28 707.88">e.</text>
<text stroke="1 0 0" pos="0 0" size="18" transformable="yes" matrix="1 0 0 1 368.76 707.88"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 692.4"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 677.88"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 663.36"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 648.84"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 634.32"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 619.8"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 605.28"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 590.76"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 576.24"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 561.72"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 547.2"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 532.68"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 518.16"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 503.64"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 489.12"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 474.6"> </text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 67.32 456.24">If you can read this</text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 214.92 456.24">,</text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 219.48 456.24"> you already have A</text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 370.8 456.24">dobe Acrobat </text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 67.32 437.64">Reader i</text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 131.28 437.64">n</text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 141.12 437.64">stalled on your computer.</text>
<text stroke="0 0 0" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 337.92 437.64"> </text>
<text stroke="0 0.502 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 342.48 437.64"> </text>
<image width="800" height="600" rect="-92.04 800.64 374.4 449.76" ColorSpace="DeviceRGB" BitsPerComponent="8" Filter="DCTDecode" length="369925">
feedcafebabe...
</image>
</page>
</ipe>

Ответ 1

Мы используем Xpdf в одном из наших приложений. Его библиотека С++, которая в основном используется для рендеринга PDF, хотя у нее есть текстовый экстрактор, который может быть полезен для этого проекта.

Ответ 2

Если вы в порядке с вызовом чего-то внешнего, вы можете использовать ghostscript - посмотрите на ps2ascii script, включенный в дистрибутив. Я не уверен, что вы хотите от графического инструмента - большой кнопки, которую вы нажимаете для выбора входных и выходных файлов? Предварительный просмотр? Возможно, вы сможете использовать GSView, в зависимости от того, что вы хотите.

Ответ 3

pdftohtml -xml

хотя pdftoipe кажется более подробным!!

Ответ 4

Вы посмотрели на Aspose? Мы используем его для приложения ASP.net, и я также видел некоторые примеры использования vbscript. Это не особенно дорого.

http://www.aspose.com/