Мне нужно просмотреть дерево DOM проанализированного HTML-документа.
Я использую uTidyLib перед разбором строки с помощью lxml
a = tidy.parseString(html_code, options) dom = etree.fromstring(str (a))
Иногда я получаю сообщение об ошибке, кажется, что tidylib не в состоянии восстановить неверный html.
как я могу анализировать каждый HTML файл без получения ошибки (синтаксический анализ только некоторых частей файлов, которые не могут быть восстановлены)?