Я вытаскиваю данные из документа Google, обрабатываю их и записываю в файл (который в итоге вставлю на страницу Wordpress).
У него есть не-ASCII символы. Как я могу безопасно преобразовать их в символы, которые можно использовать в исходном коде HTML?
В настоящее время я конвертирую все в Unicode по пути, объединяю все это в строку Python, затем делаю:
import codecs
f = codecs.open('out.txt', mode="w", encoding="iso-8859-1")
f.write(all_html.encode("iso-8859-1", "replace"))
В последней строке есть ошибка кодирования:
UnicodeDecodeError: кодек "ascii" не может декодировать байт 0xa0 в позиции 12286: порядковый номер не в диапазоне (128)
Частичное решение:
Этот Python работает без ошибок:
row = [unicode(x.strip()) if x is not None else u'' for x in row]
all_html = row[0] + "<br/>" + row[1]
f = open('out.txt', 'w')
f.write(all_html.encode("utf-8"))
Но затем, если я открою текстовый файл, я вижу много символов, таких как:
Qur’an
Может быть, мне нужно написать что-то, кроме текстового файла?