Проблема
Я пытаюсь определить, какой тип документа (например, мольба, переписка, повестка и т.д.), Просматривая его текст, предпочтительно используя python. Все PDF файлы доступны для поиска, но я не нашел решения для его синтаксического анализа с помощью python и применения script для его поиска (не до тех пор, пока оно не будет конвертировано в текстовый файл, но это может быть ресурсоемким для n документов).
Что я сделал до сих пор
Я просмотрел документацию pypdf, pdfminer, adobe pdf и любые вопросы, которые я мог найти (хотя, похоже, никто не решал эту проблему напрямую). PDFminer, кажется, имеет наибольший потенциал, но после прочтения документации я даже не уверен, с чего начать.
Есть ли простой, эффективный метод для чтения PDF-текста, будь то по странице, строке или всему документу? Или любые другие способы обхода?