В настоящее время я извлекаю и разбираю страницы с веб-сайта с помощью urllib2
. Тем не менее, их много (более 1000), и их обработка последовательно медленнее.
Я надеялся, что есть способ получить и проанализировать страницы параллельно. Если это хорошая идея, возможно ли это и как мне это сделать?
Кроме того, какие "разумные" значения для количества страниц обрабатываются параллельно (я бы не хотел слишком сильно накладывать на сервер или быть заблокирован, потому что я использую слишком много соединений)?
Спасибо!