Я пытаюсь очистить http://www.dailyfinance.com/quote/NYSE/international-business-machines/IBM/financial-ratios, но традиционная технология построения строковых строк не работает, потому что "полное название компании" -is-insert-in-path ". И точное "полное название компании" не известно заранее. Известен только символ компании "IBM".
По сути, способ, которым я царапаю, - это перебрать массив символа компании и построить строку url перед отправкой ее на urllib2.urlopen(url). Но в этом случае это невозможно.
Например, строка CSCO
http://www.dailyfinance.com/quote/NASDAQ/cisco-systems-inc/CSCO/financial-ratios
и другой пример строки url - AAPL:
http://www.dailyfinance.com/quote/NASDAQ/apple/AAPL/financial-ratios
Поэтому, чтобы получить URL-адрес, мне пришлось искать символ в поле ввода на главной странице:
http://www.dailyfinance.com/
Я заметил, что когда я печатаю "CSCO" и просматриваю вход для поиска по адресу (http://www.dailyfinance.com/quote/NASDAQ/apple/AAPL/financial-ratios) на вкладке сети веб-разработчиков Firefox, я заметил, что запрос на отправку
http://j.foolcdn.com/tmf/predictivesearch?callback=_predictiveSearch_csco&term=csco&domain=dailyfinance.com
и что референт действительно дает путь, который я хочу захватить
Host: j.foolcdn.com
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:28.0) Gecko/20100101 Firefox/28.0
Accept: */*
Accept-Language: en-US,en;q=0.5
Accept-Encoding: gzip, deflate
Referer: http://www.dailyfinance.com/quote/NASDAQ/cisco-systems-inc/CSCO/financial-ratios?source=itxwebtxt0000007
Connection: keep-alive
Извините за длинное объяснение. Итак, вопрос в том, как извлечь URL-адрес в Referer? Если это невозможно, как мне подойти к этой проблеме? Есть ли другой способ?
Я действительно ценю твою помощь.