Я работаю над веб-искателем, который индексирует сайты, которые не хотят индексироваться.
Моя первая попытка: Я написал crawler С#, который проходит через каждую страницу и загружает их. Это привело к тому, что мой IP был заблокирован их серверами в течение 10 минут.
Я переместил его на amazon EC2 и написал распределенный питон script, который запускает около 50 экземпляров. Это остается чуть выше их порога загрузки меня. Это также стоит около $1900 в месяц...
Я вернулся к своей первоначальной идее и поместил ее в сокращенную версию сети TOR. Это сработало, но было очень медленно.
У меня нет идей. Как я могу пройти мимо них, блокируя меня для повторных запросов.
Я говорю "блок", они на самом деле дают мне случайную 404 не найденную ошибку на страницах, которые определенно существуют. Он случайный и начинается только после того, как я прохожу около 300 запросов через час.