Обучение Tesseract для нового шрифта

Я все еще новичок в Tesseract OCR и после использования его в своем скрипте заметил, что у него была относительно большая частота ошибок для изображений, из которых я пытался извлечь текст. Я наткнулся на тренинг по Тессеракту, который предположительно сможет уменьшить частоту появления ошибок для конкретного шрифта, который вы будете использовать. Я натолкнулся на веб-сайт (http://ocr7.com/), который представляет собой инструмент, работающий на Anyline, чтобы выполнить все тренировки для указанного вами шрифта. Поэтому я получил файл .traineddata, и я не совсем уверен, что с ним делать. Кто-нибудь может объяснить, что я должен делать с этим файлом, чтобы он работал? Или я должен просто научиться проводить обучение в Tesseract вручную, что, по мнению сайта Anyline, может занять целый день. Заранее спасибо.

Ответ 1

Для тех, кто все еще собирается это прочитать, вы можете использовать этот инструмент, чтобы получить файл с обученными данными того шрифта, который вам нужен. После этого переместите файл с обученными данными в вашу папку tessdata. Чтобы использовать tesseract с новым шрифтом в Python или любом другом языке (я думаю?), Поместите lang = "Font" качестве второго параметра в функцию image_to_string. Это значительно повышает точность, но все же может ошибаться. Или вы можете просто научиться обучать тессеракт для нового шрифта вручную с помощью этого руководства: http://pretius.com/how-to-prepare-training-files-for-tesseract-ocr-and-improve-characters-recognition/,

Ответ 2

Я сделал видеоурок, объясняющий процесс для последней версии Tesseract (модель LSTM), надеюсь, это поможет. https://www.youtube.com/watch?v=TpD76k2HYms

Ответ 3

Если вы хотите обучить tesseract новому шрифту, то сгенерируйте файл .traineddata с нужным шрифтом. Для создания .traineddata сначала вам понадобятся файл .tiff и файл .box. Вы можете создать эти файлы, используя jTessBoxEditor. Учебник для jBossTextEditor находится здесь. При создании файла .tiff вы можете установить шрифт, в котором у вас есть поезд тессеракт. Либо вы можете jTessBoxEditor для генерации .traineddata или serak-tesseract-trainer также там. Я использовал и то, и другое, и я бы сказал, что для создания файлов tiff и box jTessBoxEditor отлично подходит, а для обучения tesseract используйте serak.

Ответ 4

Это старый вопрос с правильными ответами, но если вы все еще сталкиваетесь с этим, вот бесплатный онлайн-инструмент для создания файла .traineddata:

http://trainyourtesseract.com/

Отказ от ответственности: я не являюсь автором этого инструмента, но он действительно решил мою проблему, и точность созданной модели была достаточной для моих нужд.