Поиск SO и Google, я обнаружил, что есть несколько парсеров Java HTML, которые последовательно рекомендуются различными сторонами. К сожалению, трудно найти какую-либо информацию о сильных и слабых сторонах различных библиотек. Я надеюсь, что некоторые люди потратили некоторое сравнение этих библиотек и могут поделиться тем, что они узнали.
Вот что я видел:
И если есть большой синтаксический анализатор, который я пропустил, я бы тоже хотел услышать о его плюсах и минусах.
Спасибо!