Веб-сканер - Игнорировать файл Robots.txt?

Некоторые серверы имеют файл robots.txt, чтобы остановить сканирование веб-сканеров через их веб-сайты. Есть ли способ заставить веб-искателя игнорировать файл robots.txt? Я использую Mechanize для python.

Ответ 1

документация для механизации имеет этот пример кода:

br = mechanize.Browser()
....
# Ignore robots.txt.  Do not do this without thought and consideration.
br.set_handle_robots(False)

Это делает именно то, что вы хотите.

Ответ 2

Этот выглядит так, как вам нужно:

from mechanize import Browser
br = Browser()

# Ignore robots.txt
br.set_handle_robots( False )

но вы знаете, что делаете...