Там много научной работы по извлечению содержимого HTML, например, Gupta и Kaiser (2005) Извлечение содержимого из доступных веб-страниц и некоторые признаки интереса здесь, например один, два и три, но я не совсем понимаю, насколько хорошо практика последних отражает идеи первого. Какова наилучшая практика?
Указатели на хорошие (в частности, с открытым исходным кодом) реализации и хорошие научные исследования реализаций были бы тем, что я ищу.
Постскриптум первый. Чтобы быть точным, вид опроса, который я буду, будет документом (опубликованным, неопубликованным, каким бы то ни было), в котором обсуждаются оба критерия из научной литературы, а также ряд существующих реализаций и анализирует, как неудачные реализации выполняются с точки зрения критериев. И, действительно, сообщение для списка рассылки будет работать и для меня.
Постскриптум второй Чтобы быть ясным, после ответа Питера Роуэлла, который я принял, мы видим, что этот вопрос приводит к двум подвопросам: (i) решена проблема очистки несоответствия HTML, для которого "Лучшее суп" является наиболее рекомендуемым решением, и (ii) нерешенной проблемой или разделением крутильных (в основном, шаблонов сайта и рекламных материалов) из мяса (содержание того, что люди, которые считают, что страница может быть интересной на самом деле найти релевантные. Чтобы решить проблему, новые ответы должны быть направлены явно на peoblem из-за мяса.