Как найти параметры, поддерживаемые в файле конфигурации Tesseract OCR

Я хочу знать, какие параметры использует файл конфигурации, используемый Tesseract OCR, как написать файл конфигурации и т.д.

Я не могу найти документацию об этом на на своем сайте. Как определить, какие параметры поддерживаются и что они означают?

Ответ 1

Я нашел эти инструкции в приведенной ниже ссылке. Они собираются записать файл конфигурации и где его разместить:

Конфигурационный файл - это простой текстовый файл без спецификации и с отметкой конца строки Unix (для Windows вы можете использовать какой-либо расширенный текстовый редактор, например Notepad ++, для этого).

Если вы используете исполняемый файл tesseract, это только способ изменения параметров tesseract.

Файл конфигурации

должен находиться в каталоге tessdata/configs. Посмотрите там несколько примеров.

Существует список всех переменных плюс описания каждого из них в http://www.sk-spell.sk.cx/tesseract-ocr-parameters-in-302-version. Обратите внимание, что для Tesseract 3.02 в других версиях могут быть разные.

Изменить: Также добавьте ссылку pastebin в случае, если вышеуказанная ссылка станет мертвой.

Ответ 2

Это просто текстовый файл, содержащий пары ключ/значение, разделенные пробелами для переменных конфигурации Tesseract, каждая из которых находится на отдельной строке; например:

interactive_display_mode T
tessedit_display_outwords T

В папке Tesseract tessdata/configs имеется несколько стандартных файлов конфигурации, таких как цифры, hocr -.

Ответ 3

Теперь Tesseract v3.04 предлагает вариант командной строки --print-parameters, поэтому вы можете вызвать tesseract --print-parameters, чтобы получить список настраиваемых параметров 678 (!), их значения по умолчанию и краткое описание:

Tesseract parameters:
editor_image_xpos   590 Editor image X Pos
editor_image_ypos   10  Editor image Y Pos
editor_image_menuheight 50  Add to image height for menu bar
editor_image_word_bb_color  7   Word bounding box colour
editor_image_blob_bb_color  4   Blob bounding box colour
editor_image_text_color 2   Correct text colour
...and many, many more