Кажется, что каждый вопрос о stackoverflow, в котором обманщик использует regex для захвата некоторой информации из HTML, неизбежно имеет "ответ", который говорит, что не использовать регулярное выражение для разбора HTML.
Почему бы и нет? Я знаю, что есть цитаты-безоговорочные "реальные" парсеры HTML, такие как Beautiful Soup, и я уверен, что они мощные и полезно, но если вы просто делаете что-то простое, быстрое или грязное, то зачем пытаться использовать что-то настолько сложное, когда несколько операторов регулярных выражений будут работать нормально?
Кроме того, есть ли что-то фундаментальное, что я не понимаю о регулярном выражении, что делает их плохим выбором для синтаксического анализа вообще?