Некоторые серверы имеют файл robots.txt, чтобы остановить сканирование веб-сканеров через их веб-сайты. Есть ли способ заставить веб-искателя игнорировать файл robots.txt? Я использую Mechanize для python.
Веб-сканер - Игнорировать файл Robots.txt?
Ответ 1
документация для механизации имеет этот пример кода:
br = mechanize.Browser()
....
# Ignore robots.txt. Do not do this without thought and consideration.
br.set_handle_robots(False)
Это делает именно то, что вы хотите.
Ответ 2
Этот выглядит так, как вам нужно:
from mechanize import Browser
br = Browser()
# Ignore robots.txt
br.set_handle_robots( False )
но вы знаете, что делаете...