Я хотел бы посмотреть, могу ли я сканировать листок входа для класса. Хорошей новостью является то, что я знаю 90% имен, которые могут быть написаны.
Моя идея состояла в том, чтобы использовать tessaract для анализа изображения имен, а затем использовать алгоритм Левенштейна для сравнения каждой строки со списком имен в моей базе данных, и если я получу достаточно близкие совпадения, то это имя правильно.
Этот подход звучит как хороший? Если нет, другие идеи?
Я попытался использовать tesseract на листе образца (см. ниже)
Я использовал:
tesseract simple.png -psm 4 outtxt
Tesseract Open Source OCR Engine v3.05.01 with Leptonica
Warning. Invalid resolution 0 dpi. Using 70 instead.
Error in boxClipToRectangle: box outside rectangle
Error in pixScanForForeground: invalid box
Я предполагаю, что это не понравилось в строке 2, потому что я пошел ниже строки.
Полученные результаты:
1.. AM: (harm;
l. ’E (J 22 a 00k
2‘ wau \\) [HQ
4. KIM TAYLOE
5. LN] Davis
6‘ Mzflé! Ha K
Очевидно, что не самый большой, я думаю, что совпадения расстояний для 4 и 5 будут работать, но остальные даже не близки.
У меня есть контроль над моим листом регистрации, но не с почерком для людей, поэтому, если какие-либо изменения, которые я могу сделать, чтобы помочь, пожалуйста, дайте мне знать.