Веб-сайты, которые особенно сложны для сканирования и очистки?

Мне интересны публичные сайты (ничего за логином/аутентификацией), которые имеют такие вещи, как:

  • Высокое использование внутренних перенаправлений 301 и 302
  • Антискользящие меры (но не запрещение сканеров через robots.txt)
  • Не-семантическая или недопустимая разметка
  • Содержимое, загруженное через AJAX в виде onclicks или бесконечной прокрутки
  • Множество параметров, используемых в URL-адресах
  • Канонические проблемы
  • Структура встроенных внутренних линий
  • и все остальное, что обычно сканирует сайт на головную боль!

Я построил сканер/паук, который выполняет целый ряд анализов на веб-сайте, и я нахожусь в поисках сайтов, которые будут препятствовать этому.

Ответ 1

Вот некоторые из них:

  • Содержимое, загруженное через AJAX в виде onclicks или бесконечной прокрутки
    • pinterest
    • комментарии на такой странице
      Это китайская товарная страница, и ее комментарии загружаются AJAX, который запускается путем прокрутки полосы прокрутки в браузере или в зависимости от высоты вашего браузера. Я должен использовать PhantomJS и xvfb для запуска таких действий.
  • Антискользящие меры (но не запрещение сканеров через robots.txt)
    • amazon next page
      Я просканировал сайт Amazon в Китае, и когда я хочу просканировать страницу next на таких страницах, это может изменить запросы, в результате чего вы не сможете получить real next страница
    • stackoverflow
      Он имеет предел частоты посещения. Несколько дней назад я хотел получить все теги в stackoverflow и установить частоту посещения паука до 10, но я был предупрежден с помощью stackoverflow...... Здесь снимок экрана. После этого я должен использовать прокси для обхода stackoverflow.
  • и все остальное, что обычно сканирует сайт на головную боль
    • yihaodian
      Это китайский сайт электронной коммерции, и когда вы посещаете его в браузере, он покажет ваше местоположение и предложит некоторые товары в соответствии с вашим местоположением.
    • и т.д..
      Существует много сайтов, как указано выше, которые будут предлагать различные материалы в соответствии с вашим местоположением. Когда вы просматриваете такие сайты, то, что вы получаете, не совпадает с тем, что вы видите в браузере. Часто при настройке запроса через паук часто требуется настроить cookie.

В прошлом году я столкнулся с сайтом, который требовал заголовков http-запросов и некоторых файлов cookie при отправке запросов, но я не помню этот сайт....