Я делаю веб-соскабливание с помощью selenium webdriver в Python с Proxy.
Я хочу просмотреть более 10 тыс. страниц одного сайта с помощью этого скребка.
Проблема использует этот прокси. Я могу отправить запрос только на один раз. когда я отправляю другой запрос по той же ссылке или другой ссылке этого сайта, я получаю ошибку 416 (вид блока IP с использованием брандмауэра) в течение 1-2 часов.
Примечание.. Я могу выполнять очистку всех обычных сайтов с помощью этого кода, но этот сайт имеет определенную защиту, которая мешает мне очищать.
Вот код.
profile = webdriver.FirefoxProfile()
profile.set_preference("network.proxy.type", 1)
profile.set_preference(
"network.proxy.http", "74.73.148.42")
profile.set_preference("network.proxy.http_port", 3128)
profile.update_preferences()
browser = webdriver.Firefox(firefox_profile=profile)
browser.get('http://www.example.com/')
time.sleep(5)
element = browser.find_elements_by_css_selector(
'.well-sm:not(.mbn) .row .col-md-4 ul .fs-small a')
for ele in element:
print ele.get_attribute('href')
browser.quit()
Любое решение