Например, у меня был сайт "www.example.com"
На самом деле я хочу очистить html этого сайта, сохранив его в локальной системе.
поэтому для тестирования я сохранил эту страницу на своем рабочем столе как example.html
Теперь я написал код паука для этого, как показано ниже
class ExampleSpider(BaseSpider):
name = "example"
start_urls = ["example.html"]
def parse(self, response):
print response
hxs = HtmlXPathSelector(response)
Но когда я запускаю вышеуказанный код, я получаю эту ошибку ниже
ValueError: Missing scheme in request url: example.html
Наконец, мое намерение - очистить файл example.html
, состоящий из www.example.com
html кода, сохраненного в моей локальной системе
Может ли кто-нибудь предложить мне, как назначить этот файл example.html в start_urls
Заранее спасибо