Прокси-IP для инфраструктуры Scrapy

Я разрабатываю проект веб-обхода, используя Python и Scrapy. Он просматривает веб-страницы 10k с веб-сайтов для торговли электронной коммерцией. весь проект работает нормально, но перед тем, как переместить код с сервера тестирования на рабочий сервер, я хочу выбрать лучшую службу прокси-сервера ip, поэтому мне не нужно беспокоиться о моем Блокировании IP-адресов или Запрет доступа к веб-сайтам мои пауки.

До сих пор я использую промежуточное ПО в Scrapy для ручного вращения ip из бесплатного списка прокси-сервера, доступного на различных сайтах как это

Теперь я запутался в параметрах, которые я должен делать

Купите список прокси-сервера премиум-класса http://www.ninjasproxy.com/ или http://hidemyass.com/
Используйте TOR
Используйте VPN-сервис, например http://www.hotspotshield.com/
Любой вариант лучше, чем выше трех

Ответ 1

Вот варианты, которые я использую в настоящее время (в зависимости от моих потребностей):

proxymesh.com - разумные цены для небольших проектов. Никогда не было проблем с услугой, поскольку она работает из коробки с помощью scrapy (я не связан с ними).
самостоятельная сборка script, которая запускает несколько экземпляров EC2 на Amazon. Затем я SSH в машины и создаю прокси-соединение SOCKS, эти соединения затем передаются через делегированные для создания обычных HTTP-прокси, которые можно использовать с помощью scrapy. HTTP-прокси можно либо балансировать с помощью чего-то вроде haproxy, либо создавать собственное промежуточное программное обеспечение, которое вращает прокси-серверы.

Последнее решение - это то, что в настоящее время работает лучше всего для меня и без проблем создает около 20-30 ГБ в день трафика.

Ответ 2

Crawlera создан специально для проектов веб-сканирования. Например, он реализует интеллектуальные алгоритмы, чтобы избежать запрета, и используется для сканирования очень больших и высокопрофильных веб-сайтов.

Отказ от ответственности: я работаю для материнской компании Scrapinghub, которые также являются основными разработчиками Scrapy.