Я пытаюсь заставить Tesseract выводить файл с помеченными ограничивающими полями, которые являются результатом сегментации страницы (pre OCR). Я знаю, что он должен быть способен сделать это "из коробки" из-за результатов, показанных на соревнованиях ICDAR, где участники должны были сегментировать и различные документы (академическая статья здесь). Вот пример из этой статьи, иллюстрирующий то, что я хочу создать:
Я построил последнюю версию tesseract, используя brew, brew install tesseract --HEAD
, и пытался редактировать файлы конфигурации, расположенные в /usr/local/Cellar/tesseract/HEAD/share/tessdata/configs/
, для вывода помеченных ящиков. Выход, полученный с помощью hocr
в качестве конфигурации, то есть
tesseract infile.tiff outfile_stem -l eng -psm 1 hocr
дает ограничивающий прямоугольник для всего и имеет некоторую маркировку в тегах class
, например.
<p class='ocr_par' dir='ltr' id='par_5_82' title="bbox 2194 4490 3842 4589">
<span class='ocr_line' id='line_5_142' ...
но я не могу это представить. Есть ли стандартный инструмент для визуализации файлов hOCR или средство для создания выходного файла с ограничивающими прямоугольниками, встроенными в Tesseract?
Текущая версия главы:
tesseract 3.04.00
leptonica-1.71
libjpeg 8d : libpng 1.6.16 : libtiff 4.0.3 : zlib 1.2.5
Изменить
Я действительно хочу добиться этого, используя инструмент командной строки (как в примерах выше). @nguyenq указал мне на ссылку API, к сожалению, у меня нет опыта на С++. Если единственным решением является использование API, вы можете предоставить быстрый пример python?