Преобразование PDF в HTML

Какое оптимальное решение для конвертирования PDF-документов для просмотра в браузере как HTML? На сайте есть несколько PDF-документов, и посетитель может щелкнуть по нему как HTML, и это должно быть просмотрено на экране в виде HTML файла.

Стандартный веб-сайт работает под управлением PHP, Linux, Apache.

Ответ 1

pdftohtml отлично работает: быстрый, стабильный, но результат html в лучшем случае уродлив. Я использовал его в течение некоторого времени для веб-сайта, который имеет много резюме работы.

Это хорошее решение для извлечения текстового контента.

Я бы дал scribd API попробовать

или API документов Google Apps. GOogle отлично справляется с отображением и преобразованием файлов PDF

Ответ 2

Рассматривали ли вы хранение данных PDF в базе данных, а затем либо динамическое создание PDF файла, либо страницы html в зависимости от того, что выбрали посетители?

Ответ 3

Если у вас есть доступ к командной строке у вашего хостинг-провайдера, есть утилита pdftohtml внутри пакета poppler_utils.

http://poppler.freedesktop.org/

Выглядит довольно прост в использовании, не вызвал его изнутри PHP, но он должен работать.