Я пытаюсь разобрать некоторый html в Python. Были некоторые методы, которые на самом деле работали до этого... но в настоящее время я ничего не могу использовать без обходных решений.
- У beautifulsoup есть проблемы после выхода SGMLParser.
- html5lib не может разобрать половину того, что "там"
- lxml пытается быть "слишком правильным" для типичного html (атрибуты и теги не могут содержать неизвестные пространства имен или исключение, что означает, что почти никакая страница с подключением Facebook не может быть проанализирована).
Какие еще варианты существуют в наши дни? (если они поддерживают xpath, это было бы здорово)