Я пытаюсь очистить сайт, который требует, чтобы пользователь вводил значение поиска и капчу. У меня есть программа оптического распознавания символов (OCR) для капчей, которая достигает примерно 33% времени. Поскольку captchas всегда алфавитный текст, я хочу перезагрузить captcha, если функция OCR возвращает неалфавитные символы. Когда у меня есть текстовое "слово", я хочу отправить форму поиска.
Результаты возвращаются на той же странице, с формой, готовой для нового поиска и новой капчей. Поэтому мне нужно промыть и повторить, пока я не исчерпал свои поисковые запросы.
Здесь алгоритм верхнего уровня:
- Сначала загрузите страницу.
- Загрузите изображение captcha, запустите его через OCR
- Если OCR не возвращается с текстовым результатом, обновите капчу и повторите этот шаг.
- Отправить форму запроса на странице с поисковым запросом и captcha
- Проверьте ответ, чтобы увидеть, правильно ли был конвертирован.
- Если это было правильно, очистите данные
- Перейдите к 2
Я попытался использовать конвейер для получения captcha, но тогда у меня нет значения для отправки формы. Если я просто извлечу изображение, не пройдя через фреймворк, используя urllib или что-то еще, cookie с сеансом не будет отправлен, поэтому проверка на качалке на сервере не удастся.
Какой идеальный способ лечения?