Я делаю некоторые веб-соскабливания, и сайты часто используют HTML-объекты для представления символов без ascii. У Python есть утилита, которая берет строку с объектами HTML и возвращает тип юникода?
Например:
Я возвращаюсь:
ǎ
который представляет собой "ǎ" с меткой тона. В двоичном формате это представлено как 16 бит 01ce. Я хочу преобразовать объект html в значение u'\u01ce'