Я пытаюсь обнаружить эти ценники текста, который всегда явно препроцессор. Хотя он может легко прочитать текст, написанный над ним, он не может определить значения цены. Я использую python bindings pytesseract, хотя он также не считывает команды CLI. Большую часть времени он пытается распознать ту часть, где цена является одним или двумя символами.
Пример 1:
tesseract D:\tesseract\tesseract_test_images\test.png output
И результат изображения образца - это.
je Beutel
13
Однако, если я собираю и растягиваю цену, чтобы выглядеть так, как будто они разделены и имеют один и тот же размер шрифта, вывод будет прекрасным.
Обработанное изображение (обрезанная и сжатая цена):
je Beutel
1,89
Как заставить Tesseract OCR работать так, как я предполагал, поскольку я буду перебирать много похожих изображений? Изменить: добавлено больше ценников:
образец5 образец6 образец7