Я пытаюсь получить текстовые данные из pdf, используя pdfminer. Я могу извлечь эти данные в файл .txt с помощью инструмента pdf2txt.py командной строки pdfminer. В настоящее время я делаю это, а затем использую python script для очистки .txt файла. Я хотел бы включить процесс извлечения pdf в script и сохранить себе шаг.
Я думал, что что-то придумал, когда нашел эту ссылку, но у меня не было успеха ни с одним из решений. Возможно, функция, перечисленная там, нуждается в обновлении снова, потому что я использую более новую версию pdfminer.
Я также попробовал функцию, показанную здесь, но она также не работала.
Другой подход, который я попробовал, заключался в вызове script в script с помощью os.system
. Это также не увенчалось успехом.
Я использую Python версии 2.7.1 и pdfminer версии 20110227.