В настоящее время я использую Beautiful Soup для анализа HTML файла и вызова get_text()
, но похоже, что мне остается много \xa0 Unicode, представляющих пробелы. Есть ли эффективный способ удалить все из них в Python 2.7 и изменить их на пробелы? Я думаю, что более обобщенный вопрос был бы, есть ли способ удалить форматирование Unicode?
Я попытался использовать: line = line.replace(u'\xa0',' ')
, как было предложено другим потоком, но это изменило \xa0 на u, так что теперь у меня есть "u" везде. ):
РЕДАКТИРОВАТЬ: проблема, по-видимому, решена с помощью str.replace(u'\xa0', ' ').encode('utf-8')
, но просто выполнение .encode('utf-8')
без replace()
, по-видимому, заставляет его выплевывать даже более странные символы, например, \xc2. Кто-нибудь может это объяснить?