Какие методы хороши для определения того, является ли веб-страница такой же, как другая?
То же самое, я не имею в виду char -for- char эквивалент (это просто), но достаточно прост, чтобы игнорировать что-то вроде текущей даты/времени на странице и т.д.
Например, перейдите к Yahoo! В новостной статье загрузите страницу, откройте одну и ту же страницу через 10 минут в другом браузере. Сбрасывая перезаписи, эти страницы будут иметь некоторые отличия (отметки времени, возможно, такие вещи, как реклама, возможно, такие вещи, как связанные истории), но человек может посмотреть на них и сказать, что они одинаковы.
Примечание. Я не пытаюсь исправить (или полагаться) на нормализацию URL. I.e., выясняя, что foo.html и foo.html? Bar = bang - то же самое.