Часто в процессе OCR файл изображения по существу разрезается на сегменты, и каждый символ учитывается как сегмент.
Например, 
необходимо преобразовать в нечто вроде

Кроме того, есть ли какой-либо алгоритм для азиатских языков, таких как телугу, который легко доступен для этой цели? Если нет, как это делается для английского?

