Я хочу извлечь все текстовые поля и текстовые поля из файла PDF.
Многие другие сообщения StackOverflow обращаются к различным решениям, чтобы попытаться извлечь весь текст упорядоченным образом, но мне потребовалось некоторое время, чтобы выяснить, как сделать промежуточный шаг для получения текстовых и текстовых местоположений.
Итак, как только я нашел это, я подумал, что стоит почитать здесь. Учитывая файл pdf, вывод должен выглядеть примерно так:
489, 41, "Signature"
500, 52, "b"
630, 202, "a_g_i_r"