var page = UrlFetchApp.fetch(contestURL);
var doc = XmlService.parse(page);
Приведенный выше код дает ошибку анализа при использовании, однако, если я заменю класс XmlService на устаревший класс Xml, с установленным флагом lenient, он правильно анализирует html.
var page = UrlFetchApp.fetch(contestURL);
var doc = Xml.parse(page, true);
Проблема в основном вызвана отсутствием CDATA в javascript-компоненте html, и парсер жалуется на следующую ошибку.
The entity name must immediately follow the '&' in the entity reference.
Даже если я удалю все <script>(.*?)</script>
с помощью регулярного выражения, он все еще жалуется, потому что теги <br>
не закрыты.
Есть ли чистый способ разбора html в дереве DOM.