Мне нужно сохранить содержимое сайта, который может быть на любом языке. И мне нужно иметь возможность искать содержимое для строки Unicode.
Я пробовал что-то вроде:
import urllib2
req = urllib2.urlopen('http://lenta.ru')
content = req.read()
Содержимое представляет собой поток байтов, поэтому я могу найти его для строки Unicode.
Мне нужно, чтобы когда я делал urlopen
, а затем читал, чтобы использовать кодировку из заголовков для декодирования содержимого и кодирования его в UTF-8.