Есть ли разница между сканированием и веб-скребком?
Если существует разница, какой лучший метод использовать для сбора некоторых веб-данных для предоставления базы данных для последующего использования в настраиваемой поисковой системе?
Есть ли разница между сканированием и веб-скребком?
Если существует разница, какой лучший метод использовать для сбора некоторых веб-данных для предоставления базы данных для последующего использования в настраиваемой поисковой системе?
Сканирование будет по существу тем, что делают Google, Yahoo, MSN и т.д., ища ЛЮБОЙ информации. Скребок обычно ориентирован на определенные веб-сайты, для конкретных данных, например. для сравнения цен, поэтому кодируются совершенно по-другому.
Обычно скребок будет навязываться на веб-сайтах, которые, как предполагается, будут соскабливать, и будет делать то, что (хороший) искатель не будет делать, т.е.:
Да, они разные. На практике вам может понадобиться использовать оба.
(Мне нужно прыгать, потому что до сих пор другие ответы не доходят до сути этого. Они используют примеры, но не делают различия различимыми. Конечно, они с 2010 года!)
Веб-скребок, чтобы использовать минимальное определение, является процессом обработки веб-документа и извлечения из него информации. Вы можете выполнять очистку веб-страниц, не выполняя веб-сканирование.
Обход веб-страниц, чтобы использовать минимальное определение, - это процесс итеративного поиска и выборки веб-ссылок, начиная с списка URL-адресов семян. Строго говоря, чтобы выполнять сканирование в Интернете, вам нужно сделать некоторую степень очистки веб-страниц (чтобы извлечь URL-адреса.)
Чтобы прояснить некоторые понятия, упомянутые в других ответах:
robots.txt
предназначен для применения к любому автоматизированному процессу, который обращается к веб-странице. Таким образом, это относится как к сканерам, так и к скреперам.
"Правильные" сканеры и скребки, оба должны точно идентифицировать себя.
Некоторые ссылки:
AFAIK Web Crawling - это то, что Google делает - он просматривает веб-сайт, просматривающий ссылки и создавая базу данных макета этого сайта и сайтов, на которые он ссылается
Web Scraping будет прогамальным анализом веб-страницы, чтобы загрузить некоторые данные из него, EG загружает информацию о погоде в BBC и разрывает (соскабливает) прогноз погоды от него и помещает его в другое место или использует его в другой программе.
Там определенно разница между этими двумя. Один из них относится к посещению сайта, а другой - к извлечению.
Там есть принципиальное различие между этими двумя. Для тех, кто хочет копать глубже, я предлагаю вам прочитать это - веб-скребок, веб-сканер
Это сообщение подробно. Хорошее резюме приведено в этой таблице из статьи:
Мы просматриваем сайты, чтобы иметь широкую перспективу, как структурирован сайт, какие связи между страницами, оценить, сколько времени нам нужно, чтобы посетить все интересующие нас страницы. Скребок часто сложнее реализовать, но его суть извлечение данных. Давайте подумаем о том, чтобы соскабливать как покрывающий сайт листом бумаги с вырезанными прямоугольниками. Теперь мы можем видеть только те вещи, которые нам нужны, полностью игнорируя части веб-сайта, которые являются общими для всех страниц (например, навигация, нижний колонтитул, реклама) или посторонние данные в виде комментариев или панировочных сухарей. Подробнее о различиях между обходами и сломами вы найдете здесь: https://tarantoola.io/web-scraping-vs-web-crawling/