Как конвертировать PDF файлы в электронные таблицы

Я пытаюсь целый день конвертировать несколько. pdf файлы, которые содержат поток трафика для Сан-Паулу в электронные таблицы, такие как MS Office Excel или LibreOffice Calc в Ubuntu. Когда я открываю файл .pdf с LibreOffice Calc, он открывает LibreOffice Draw, и я не могу получить таблицу.

Самый многообещающий метод, который я нашел, был здесь с pdftotext. Он отлично работает, и я могу получить таблицы в LibreOffice Calc, но вручную настраивая столбцы.

Моя проблема в том, что у меня так много файлов .pdf, что мне потребуется много времени.

Кто-нибудь знает лучший метод?

Ответ 1

Другой вариант - использовать Okular (http://okular.kde.org). Он имеет инструмент выбора таблицы (Ctrl + 5). Вы можете выбрать таблицу, добавить строки для дополнительных строк и столбцов и скопировать полученную таблицу в буфер обмена. Это отлично работает для меня.

Ответ 2

Возможно, -layout будет вам полезен. С помощью этой опции pdftotext попытается сохранить макет столбца в результирующем текстовом файле.

Теперь вы можете импортировать текстовый файл в LibreOffice Calc с соответствующими настройками импорта. При открытии файла txt в Calc вам будет предложено проанализировать содержимое файла (см. Снимок экрана ниже). В разделе Separator Options выберите оба параметра [separated by] Space и Merge Delimiters. Таким образом, Calc сможет восстановить структуру столбцов (при условии, что данные ячейки не содержат пробелов).

text import into calc

Ответ 3

Tabula может работать неплохо. PDF не является простым форматом для извлечения структурированной информации, поэтому это не всегда возможно.

Ответ 4

Инструмент под названием Able2Extract - это опция, которая может сделать именно то, что вы хотите, с минимальными ошибками

Ответ 5

Учитывая, сколько времени может потребоваться без лучшей помощи, и что "лучшая помощь доступна", вероятно, составляет менее 200 долларов США, некоторые дополнительные сверхурочные или оплачиваемая неполная работа в течение нескольких часов, если необходимо, могут быть лучше использованы ваше время - если вы не можете найти кого-то, кто сделает конверсию для вас с помощью своего программного обеспечения. Качество преобразования числовых таблиц (без контрольных итогов) является особой проблемой, потому что нет эквивалента проверки орфографии, чтобы помочь с небольшими неточными преобразованиями строк.

Я использую очень старый коммерческий конвертер и примерно через 10 минут преобразовал весь исходный документ с результатами, как показано ниже или аналогичным:

SO18293175 example

Важно отметить, что вывод состоит из 318 листов в одной книге (не все из этого качества выше!) и что заголовки таблиц были отделены от таблиц, что затруднило поиск определенного примера выше, учитывая, что в документе столько таблиц одинакового макета.

Если "кусать пулю", я бы предложил продукт Nuance и отметить упоминание пробной версии (Windows) здесь: http://www.nuance.co.uk/products/pdf-converter-professional/index.htm.

То, что я использую, я бы никогда не думал о покупке (это был подарок), но я очень скоро понял, что я был глуп, чтобы не так долго до. В то время я думал, что у меня есть не более чем случайное требование для PDF в Excel, но теперь благословляйте донора почти ежедневно!