Я пытаюсь очистить весь HTML из строки, поэтому конечный вывод - это текстовый файл. У меня есть некоторые исследования по различным "конвертерам", и я начинаю склоняться к созданию своего собственного словаря для сущностей и символов и выполнения замены в строке. Я рассматриваю это, потому что хочу автоматизировать процесс, и есть много изменчивости в качестве базового html. Чтобы начать сравнивать скорость моего решения и одну из альтернатив, например pyparsing, я решил протестировать замену \xa0 с помощью замены метода string. Я получаю
UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 0: ordinal not in range(128)
Фактическая строка кода была
s=unicodestring.replace('\xa0','')
В любом случае, я решил, что мне нужно предисловие к нему с r, поэтому я запустил эту строку кода:
s=unicodestring.replace(r'\xa0','')
Он работает без ошибок, но я, когда смотрю на кусочек s, вижу, что \xaO все еще там