Я ищу пакет/модуль/функцию и т.д., что примерно соответствует эквиваленту Python для чтения Arc90.js
http://lab.arc90.com/experiments/readability
http://lab.arc90.com/experiments/readability/js/readability.js
чтобы я мог дать ему некоторый файл input.html, и в результате была очищена версия этой html-страницы " основной текст". Я хочу, чтобы я мог использовать его на стороне сервера (в отличие от JS-версии, которая работает только со стороны браузера).
Любые идеи?
PS: Я пробовал Rhino + env.js, и эта комбинация работает, но производительность неприемлема, для очистки большинства содержимого html требуется несколько минут:( (до сих пор не удалось найти, почему существует такая большая разница в производительности).