Ну, я использую подчиненную .NET-версию этого OCR, которую можно найти @http://www.pixel-technology.com/freeware/tessnet2/
У меня есть работа, однако цель этого - перевести номерные знаки, к сожалению, двигатель действительно не точно переводит несколько букв, например, здесь изображение, которое я просматривал, чтобы определить проблемы персонажа
Результат:
12345B7B9U ABCDEFGHIJKLMNUPIJRSTUVHXYZ
Поэтому следующие символы переводятся неправильно:
1, O, Q, W
Это не кажется слишком плохим, однако на моих номерных знаках результат не так велик:
= H4 ODM
= LDH IFW
Поддельный тест
= NR4 y2k
Как вы могли бы сказать, я попытался уменьшить уровень шума, увеличив контрастность и удалив пиксели, которые не являются абсолютно черными, без реальных улучшений.
По-видимому, вы можете "изучить" новые шрифты для движка, но я думаю, что мне нужно будет перекомпилировать библиотеку для .NET, также кажется, что это выполняется на ОС Linux, которой у меня нет.
http://www.scribd.com/doc/16747664/Tesseract-Trainingfor-Khmer-LanguageFor-Posting
Итак, я застрял, как попробовать, я написал быстрое консольное приложение исключительно для тестирования, если кто-то захочет попробовать его. Если у кого-нибудь есть идеи/графические манипуляции/идеи библиотеки, я был бы рад услышать их.