Я хочу очистить некоторую информацию с футбольной (футбольной) веб-страницы, используя простые python regexp. Проблема в том, что такие игроки, как первый парень, ÄÄRITALO, выходят как # 196; & # 196; RITALO!
То есть, html использует экранированную разметку для специальных символов, таких как & # 196;
Есть ли простой способ чтения html в правильную строку python? Если бы это был XML/XHTML, это было бы легко, синтаксический анализатор сделал бы это.