В чем разница между веб-сканированием и веб-соскабливанием?

Есть ли разница между сканированием и веб-скребком?

Если существует разница, какой лучший метод использовать для сбора некоторых веб-данных для предоставления базы данных для последующего использования в настраиваемой поисковой системе?

Ответ 1

Сканирование будет по существу тем, что делают Google, Yahoo, MSN и т.д., ища ЛЮБОЙ информации. Скребок обычно ориентирован на определенные веб-сайты, для конкретных данных, например. для сравнения цен, поэтому кодируются совершенно по-другому.

Обычно скребок будет навязываться на веб-сайтах, которые, как предполагается, будут соскабливать, и будет делать то, что (хороший) искатель не будет делать, т.е.:

Не обращайте внимания на robots.txt
Определите себя как браузер
Отправить формы с данными
Выполнить Javascript (если требуется действовать как пользователь)

Ответ 2

Да, они разные. На практике вам может понадобиться использовать оба.

(Мне нужно прыгать, потому что до сих пор другие ответы не доходят до сути этого. Они используют примеры, но не делают различия различимыми. Конечно, они с 2010 года!)

Веб-скребок, чтобы использовать минимальное определение, является процессом обработки веб-документа и извлечения из него информации. Вы можете выполнять очистку веб-страниц, не выполняя веб-сканирование.

Обход веб-страниц, чтобы использовать минимальное определение, - это процесс итеративного поиска и выборки веб-ссылок, начиная с списка URL-адресов семян. Строго говоря, чтобы выполнять сканирование в Интернете, вам нужно сделать некоторую степень очистки веб-страниц (чтобы извлечь URL-адреса.)

Чтобы прояснить некоторые понятия, упомянутые в других ответах:

robots.txt предназначен для применения к любому автоматизированному процессу, который обращается к веб-странице. Таким образом, это относится как к сканерам, так и к скреперам.
"Правильные" сканеры и скребки, оба должны точно идентифицировать себя.

Некоторые ссылки:

Ответ 3

AFAIK Web Crawling - это то, что Google делает - он просматривает веб-сайт, просматривающий ссылки и создавая базу данных макета этого сайта и сайтов, на которые он ссылается

Web Scraping будет прогамальным анализом веб-страницы, чтобы загрузить некоторые данные из него, EG загружает информацию о погоде в BBC и разрывает (соскабливает) прогноз погоды от него и помещает его в другое место или использует его в другой программе.

Ответ 4

Там определенно разница между этими двумя. Один из них относится к посещению сайта, а другой - к извлечению.

Ответ 5

Там есть принципиальное различие между этими двумя. Для тех, кто хочет копать глубже, я предлагаю вам прочитать это - веб-скребок, веб-сканер

Это сообщение подробно. Хорошее резюме приведено в этой таблице из статьи:

Ответ 6

Мы просматриваем сайты, чтобы иметь широкую перспективу, как структурирован сайт, какие связи между страницами, оценить, сколько времени нам нужно, чтобы посетить все интересующие нас страницы. Скребок часто сложнее реализовать, но его суть извлечение данных. Давайте подумаем о том, чтобы соскабливать как покрывающий сайт листом бумаги с вырезанными прямоугольниками. Теперь мы можем видеть только те вещи, которые нам нужны, полностью игнорируя части веб-сайта, которые являются общими для всех страниц (например, навигация, нижний колонтитул, реклама) или посторонние данные в виде комментариев или панировочных сухарей. Подробнее о различиях между обходами и сломами вы найдете здесь: https://tarantoola.io/web-scraping-vs-web-crawling/