Друг и я заинтересованы в обучении движка tesseract-OCR для проекта CV. Мы пробовали использовать некоторые обертки, такие как PyTesser и pyocr, но результаты в настоящее время не так точны, как нам нужно. Таким образом, мы хотим попробовать тренировать tesseract, чтобы лучше работать для наших целей (то есть идентифицировать текст на этикетках продуктов питания), но некоторые проблемы с установкой учебных инструментов.
Что мы пробовали:
Если посмотреть на веб-сайте google, страница Компиляция "на wiki-странице wiki-кода tesseract говорит, что инструменты обучения доступны только в версии 3.03. Однако на странице" Загрузки "Google для tesseract-ocr есть только материалы для 3.02. В нижней части страницы" Компиляция" также есть некоторые комментарии об установке версии 3.03 для Windows и OSX, но пока нет комментариев для пользователей Linux.
Там также есть какой-то 3.03 исходный пакет для Ubuntu, но мы не знаем, как получить доступ к нему на наших компьютерах, а страница "Компиляция" говорит нам нужно выполнить следующие команды:
make training
sudo make training-install
Мы также обнаружили поток группы google о tesseract 3.03, но опять же кажется, что эти сообщения не содержат рекомендаций для пользователей Linux (если мы не пропустили что-то во время начальное чтение).
Это действительно простая проблема с установкой командной строки? Или, есть ли способ tesseract с 3.02 (который мы в настоящее время установили)? Не обращали ли мы внимание на неправильные места?
Приветствуются любые советы или ссылки на инструкции по установке tesseract-ocr 3.03 для дистрибутивов Linux! Спасибо.