Я экспериментировал с PyTesser последние пару часов, и это действительно хороший инструмент. Пара вещей, которые я заметил о точности PyTesser:
- Файл с иконками, изображениями и текстом - точность 5-10%
- Файл только с текстом (изображения и значки стираются) - точность 50-60%
- Файл с растяжкой (и это лучшая часть) - файл растяжения в 2) выше по оси x или y, увеличила точность на 10-20%
Таким образом, очевидно, что Pytesser не заботится о размерности шрифта или растяжении изображения. Хотя есть много теорий для чтения об обработке изображений и OCR, существуют ли какие-либо стандартные процедуры очистки изображений (кроме стирания значков и изображений), которые необходимо выполнить перед применением PyTesser или других библиотек независимо от языка?
...........
Ничего себе, этот пост уже довольно старый. Я снова начал свое исследование в OCR за последние пару дней. На этот раз я бросил PyTesser и вместо этого использовал Tesseract Engine с ImageMagik. Придя прямо к делу, вот что я нашел:
1) You can increase the resolution with ImageMagic(There are a bunch of simple shell commands you can use)
2) After increasing the resolution, the accuracy went up by 80-90%.
Таким образом, Tesseract Engine, без сомнения, лучший механизм OCR с открытым исходным кодом на рынке. Здесь не требуется чистка изображений. Суть в том, что он не работает с файлами с большим количеством встроенных изображений, и я не могу найти способ обучить Тессеракт игнорировать их. Также макет текста и форматирование в изображении имеют большое значение. Он отлично работает с изображениями только с текстом. Надеюсь, это помогло.