Я все еще новичок в Tesseract OCR и после использования его в своем скрипте заметил, что у него была относительно большая частота ошибок для изображений, из которых я пытался извлечь текст. Я наткнулся на тренинг по Тессеракту, который предположительно сможет уменьшить частоту появления ошибок для конкретного шрифта, который вы будете использовать. Я натолкнулся на веб-сайт (http://ocr7.com/), который представляет собой инструмент, работающий на Anyline, чтобы выполнить все тренировки для указанного вами шрифта. Поэтому я получил файл .traineddata, и я не совсем уверен, что с ним делать. Кто-нибудь может объяснить, что я должен делать с этим файлом, чтобы он работал? Или я должен просто научиться проводить обучение в Tesseract вручную, что, по мнению сайта Anyline, может занять целый день. Заранее спасибо.
Обучение Tesseract для нового шрифта
Ответ 1
Для тех, кто все еще собирается это прочитать, вы можете использовать этот инструмент, чтобы получить файл с обученными данными того шрифта, который вам нужен. После этого переместите файл с обученными данными в вашу папку tessdata. Чтобы использовать tesseract с новым шрифтом в Python или любом другом языке (я думаю?), Поместите lang = "Font"
качестве второго параметра в функцию image_to_string. Это значительно повышает точность, но все же может ошибаться. Или вы можете просто научиться обучать тессеракт для нового шрифта вручную с помощью этого руководства: http://pretius.com/how-to-prepare-training-files-for-tesseract-ocr-and-improve-characters-recognition/,
Ответ 2
Я сделал видеоурок, объясняющий процесс для последней версии Tesseract (модель LSTM), надеюсь, это поможет. https://www.youtube.com/watch?v=TpD76k2HYms
Ответ 3
Если вы хотите обучить tesseract новому шрифту, то сгенерируйте файл .traineddata с нужным шрифтом. Для создания .traineddata сначала вам понадобятся файл .tiff и файл .box. Вы можете создать эти файлы, используя jTessBoxEditor. Учебник для jBossTextEditor находится здесь. При создании файла .tiff вы можете установить шрифт, в котором у вас есть поезд тессеракт. Либо вы можете jTessBoxEditor для генерации .traineddata или serak-tesseract-trainer также там. Я использовал и то, и другое, и я бы сказал, что для создания файлов tiff и box jTessBoxEditor отлично подходит, а для обучения tesseract используйте serak.
Ответ 4
Это старый вопрос с правильными ответами, но если вы все еще сталкиваетесь с этим, вот бесплатный онлайн-инструмент для создания файла .traineddata
:
http://trainyourtesseract.com/
Отказ от ответственности: я не являюсь автором этого инструмента, но он действительно решил мою проблему, и точность созданной модели была достаточной для моих нужд.