Я ищу метод классификации отсканированных страниц, которые состоят в основном из текста.
Вот подробности моей проблемы. У меня есть большая коллекция отсканированных документов и вам необходимо обнаружить наличие определенных типов страниц в этих документах. Я планирую "лопнуть" документы на свои страницы компонентов (каждый из которых является отдельным изображением) и классифицировать каждое из этих изображений как "A" или "B". Но я не могу понять, как это сделать.
Подробнее:
- У меня есть многочисленные примеры изображений "A" и "B" (страниц), поэтому я могу выполнять контролируемое обучение.
- Мне непонятно, как лучше всего извлекать из этих образов функции для обучения. Например. Каковы эти возможности?
- Страницы иногда слегка вращаются, поэтому было бы замечательно, если бы классификация была несколько нечувствительной к вращению и (в меньшей степени) масштабированию.
- Мне нужно кросс-платформенное решение, в идеале, в чистом питоне или использовании общих библиотек.
- Я думал об использовании OpenCV, но это похоже на "тяжелое" решение.
EDIT:
- Страницы "A" и "B" отличаются тем, что страницы "B" имеют на них формы с одинаковой общей структурой, включая наличие штрих-кода. Страницы "A" являются свободным текстом.