Анализ HTML в Python

Какой мой лучший выбор для разбора HTML, если я не могу использовать BeautifulSoup или lxml? У меня есть код, который использует SGMLlib, но он немного низкоуровневый, и теперь он устарел.

Я бы предпочел, если бы он мог немного похудеть, хотя я уверен, что большая часть ввода будет довольно чистой.

Ответ 1

Python имеет собственный парсер HTML, однако предлагаемая оболочка Tidy, предложенная Nick, вероятно, была бы твердым выбором. Tidy - очень распространенная библиотека, (написана на C это?)

Ответ 2

Возможно, μTidylib будет отвечать вашим потребностям?

Ответ 4

http://www.xmlhack.com/read.php?item=1392 http://sourceforge.net/projects/pirxx/

http://pyxml.sourceforge.net/topics/

У меня нет большого опыта работы с python, но в прошлом я использовал Xerces (от основания Apache) и нашел, что это очень полезно. Кривая обучения тоже неплохая, хотя я не исхожу из перспективы python. Я предлагаю вам подумать об этом. (Первые две ссылки, которые я включил, обсуждают интерфейсы python для Xerces, а последний - первый хит google на "python xml" ).

Ответ 6

htql хорошо справляется с неправильным html:

http://htql.net/