Как установить Tesseract-OCR 3.03 в дистрибутивы Ubuntu/Linux?

Друг и я заинтересованы в обучении движка tesseract-OCR для проекта CV. Мы пробовали использовать некоторые обертки, такие как PyTesser и pyocr, но результаты в настоящее время не так точны, как нам нужно. Таким образом, мы хотим попробовать тренировать tesseract, чтобы лучше работать для наших целей (то есть идентифицировать текст на этикетках продуктов питания), но некоторые проблемы с установкой учебных инструментов.

Что мы пробовали:

Если посмотреть на веб-сайте google, страница Компиляция "на wiki-странице wiki-кода tesseract говорит, что инструменты обучения доступны только в версии 3.03. Однако на странице" Загрузки "Google для tesseract-ocr есть только материалы для 3.02. В нижней части страницы" Компиляция" также есть некоторые комментарии об установке версии 3.03 для Windows и OSX, но пока нет комментариев для пользователей Linux.

Там также есть какой-то 3.03 исходный пакет для Ubuntu, но мы не знаем, как получить доступ к нему на наших компьютерах, а страница "Компиляция" говорит нам нужно выполнить следующие команды:

make training
sudo make training-install

Мы также обнаружили поток группы google о tesseract 3.03, но опять же кажется, что эти сообщения не содержат рекомендаций для пользователей Linux (если мы не пропустили что-то во время начальное чтение).

Это действительно простая проблема с установкой командной строки? Или, есть ли способ tesseract с 3.02 (который мы в настоящее время установили)? Не обращали ли мы внимание на неправильные места?

Приветствуются любые советы или ссылки на инструкции по установке tesseract-ocr 3.03 для дистрибутивов Linux! Спасибо.

Ответ 1

Tesseract может быть непосредственно установлен в Ubuntu 14.04 с помощью

sudo apt-get install tesseract-ocr

Я не знаю, можете ли вы сделать это в старой версии Ubuntu, потому что репо может быть обновлено в более поздней версии Ubuntu.

Ответ 2

У меня был экземпляр aws ubuntu 14.04. когда я попытался установить Tesseract с помощью

sudo apt-get install tesseract-ocr

Откаченный пакет не найден

Но это сработало для меня.

sudo apt-get update
sudo apt-get install tesseract-ocr

Ответ 3

Ubuntu - дистрибутив Linux на основе debian. Пакет tesseract, который вы найдете, скорее всего, будет debian-пакетом, который будет содержать tesseract и требуемые файлы языка по умолчанию, чтобы вы могли запускать/тренировать tesseract. Вам НЕ нужен исходный пакет - если вы просто не хотите его компилировать самостоятельно - не нужно. Вам не нужно будет создавать tesseract, вам просто нужно установить пакет. Во-первых, похоже, что вы новичок в Ubuntu, поэтому, пожалуйста, подготовьте InstallingSoftware. Это может быть так же просто, как открыть x-term и выдать команду apt-get install tesseract-pkgname (обратите внимание: это означает, что это имя пакета).

Нет ярлыка, найдите время, чтобы понять, есть ли у вас пакет .deb на вашем ящике, который нужно установить или вы устанавливаете из удаленного репозитория. В приведенной выше ссылке объясняется, как обращаться с обоими.

Вот конкретный поток Ubuntu, связанный с установкой tesseract Tesseract 3.0 + Ubuntu 10.04 Руководство по установке Надеюсь, что это поможет. Tesseract - очень хорошее программное обеспечение.

Ответ 4

У меня нет никаких инструкций по созданию Tesseract 3.03 для Linux (я нахожусь на Mac), но здесь ссылка для загрузки исходного кода для кандидата выпуска 3.03: https://tesseract-ocr.googlecode.com/archive/3.03-rc1.tar.gz