Как всегда, у меня часто возникают проблемы, и я тщательно искал ответ на текущий, но оказался в затруднении. Вот некоторые из мест, которые я искал: - Как исправить исключение httplib.BadStatusLine? - Python httplib2 Обработка исключений - код состояния http python
Моя проблема следующая. Я создал паука и хочу сканировать разные URL-адреса. Когда я просматриваю каждый URL независимо, все работает нормально. Однако, когда я пытаюсь выполнить обход, я получаю следующую ошибку: httplib.BadStatusLine: ''
Я следил за некоторыми советами, которые я прочитал (см. ссылки, упомянутые выше), и может печатать ответ. Состояние для каждого запроса работает, но response.url не печатает и не возникает ошибка. (Я только печатаю оба утверждения, чтобы попытаться определить источник ошибки).
Я надеюсь, что это ясно.
Я использую scrapy and selenium
class PeoplePage(Spider):
name = "peopleProfile"
allowed_domains = ["blah.com"]
handle_httpstatus_list = [200, 404]
start_urls = [
"url1",
"url2"
]
def __init__(self):
self.driver = webdriver.Firefox()
def parse(self, response):
print response.status
print '???????????????????????????????????'
if response.status == 200:
self.driver.implicitly_wait(5)
self.driver.get(response.url)
print response.url
print '!!!!!!!!!!!!!!!!!!!!'
# DO STUFF
self.driver.close()