Пользовательский словарь для Tesseract

В настоящее время я работаю над проектом для Android с использованием Tesseract OCR. Я надеялся точно настроить результаты, предоставленные пользователю, добавив словарь. Согласно http://code.google.com/p/tesseract-ocr/wiki/FAQ, лучший способ сделать это -

Замените слова tessdata/eng.user своим списком слов, в том же формат - текст UTF8, по одному слову в строке.

Однако в папке tessdata нет файла eng.user-words, я предполагаю, что если я просто сделаю текстовый файл с моим словарем в нем, он никогда не будет использоваться.

Имеет ли кто-нибудь подобный опыт и знает, что делать? Любой совет будет большой помощью.

Ответ 1

если вы используете tesseract 3 (который, как я полагаю, вы есть). Вам придется перестроить файл eng.trainddata Я намеревался полностью заменить файл word-dawg, чтобы попытаться получить лучшие результаты (т.е. Слова, которые я обнаруживаю, всегда одинаковы).

вам понадобится comb_tessdata и wordlist2dawg исполняемые файлы в каталоге обучения при компиляции tesseract.

  • распакуйте все (я сделал это, чтобы создать резервную копию моего eng.word-dawg, вам также понадобится unicharset)

    ./comb_tessdata -u eng.traineddata​​strong >

  • создать текстовый файл вашего списка слов (файл списка слов)

  • создать eng.word-dawg

    ./wordlist2dawg wordlistfile eng.word-dawg trainingdat_backup/.unicharset

  • замените файл word-dawg

    ./comb_tessdata -o eng.traineddata eng.word-dawg

который должен быть этим.