Могу ли я использовать OCR для определения стиля шрифта (жирным шрифтом, курсивом)?

Мне интересно использовать OCR, чтобы извлекать жирные и курсивные слова из простого текста. Например, если я вставляю четкое изображение с таким текстом:

"Быстрая коричневая лиса прыгает над ленивой собакой."

Я хотел бы получить такой вывод: полужирный ( "коричневый", "прыжки" ), курсив ( "ленивый" )

Я изучил это с помощью OCRopus или Tesseract, но документация плохая, и я не могу сказать, возможно ли это, или как это сделать, если это возможно.

Ответ 1

Существует такая функция в Tesseract 3.0.1, из туловища. В API добавлен новый класс - ResultIterator, который имеет следующую функцию:

 WordFontAttributes(bool* is_bold,
                    bool* is_italic,
                    bool* is_underlined,
                    bool* is_monospace,
                    bool* is_serif,
                    bool* is_smallcaps,
                    int* pointsize,
                    int* font_id).

На самом деле вы можете увидеть это самостоятельно здесь.

Ответ 2

Формат hOCR на основе XML Tesseract 3.0x включает атрибуты символов. Вы можете попробовать это.

http://code.google.com/p/tesseract-ocr/issues/detail?id=377#c5