Я кодирую много парсеров. До сих пор я использовал браузер без заголовка HtmlUnit для анализа и автоматизации браузера.
Теперь я хочу разделить обе задачи.
Поскольку 80% моей работы связано с просто синтаксическим разбором, я хочу использовать легкий парсер HTML, потому что в HtmlUnit требуется много времени, чтобы сначала загрузить страницу, затем получить исходный код и затем проанализировать его.
Я хочу знать, какой HTML-парсер является лучшим. Парсер будет лучше, если он близок к парсеру HtmlUnit.
EDIT:
В лучшем случае я хочу, по крайней мере, следующие функции:
- Скорость
- Простота поиска любого HtmlElement по его "id" или "name" или "tag type".
Было бы хорошо, если бы он не очистил грязный HTML-код. Мне не нужно очищать HTML-источник. Мне просто нужен простой способ перемещения по HtmlElements и сбор данных из них.