Возьмите строку или документ HTML и проанализируйте его с помощью HTML Agility Pack. Это даст вам объект HTMLDocument, который очень похож на XmlDocument.
Затем вы можете использовать его методы, такие как SelectNodes, чтобы получить доступ к тем частям интересующего вас документа.
Если вы решите использовать другой подход, имейте в виду, что разбор HTML (не регулярного языка) с регулярными выражениями широко рассматривается как плохая идея.
И независимо от подхода, если вы сохраняете некоторую разметку, используйте белый список. Это означает удалить все, что явно не требуется.