Где поисковые системы начинают сканирование?

Что используют поисковые роботы в качестве отправной точки? Это DNS-поиск или они начинаются с некоторого фиксированного списка хорошо известных сайтов? Любые догадки или предложения?

Ответ 1

Ваш вопрос может быть истолкован двумя способами:

Вы спрашиваете, где поисковые системы начинают обход вообще, или где они начинают сканировать определенный сайт?

Я не знаю, как работают большие игроки; но если бы вы создали свою собственную поисковую систему, вы, вероятно, заселили ее популярными сайтами портала. DMOZ.org, похоже, является популярной отправной точкой. Поскольку у крупных игроков гораздо больше данных, чем у нас, они, вероятно, начинают свои ползания из разных мест.

Если вы спрашиваете, где SE начнет сканировать ваш конкретный сайт, вероятно, он имеет много общего с тем, какая из ваших страниц является самой популярной. Я предполагаю, что если у вас есть одна супер-популярная страница, на которую ссылаются многие другие сайты, тогда это будет страница, с которой начнется SEs, потому что на других сайтах есть так много точек входа.

Заметьте, что я не в SEO или что-то еще; Я только что изучил бот и SE-трафик на проект, над которым я работал.

Ответ 2

Вы можете отправить свой сайт в поисковые системы, используя формы отправки сайта - это приведет вас в вашу систему. Когда вы на самом деле обходитесь после того, как это невозможно сказать - из опыта это обычно около недели или около того для начального сканирования (домашняя страница, пара других страниц 1-link глубоко оттуда). Вы можете увеличить количество страниц, которые будут сканироваться и индексироваться с использованием четкой структуры семантических ссылок и отправлять sitemap - это позволяет вам перечислить все ваши страниц и взвешивать их относительно друг друга, что помогает поисковым системам понять, насколько важно просматривать каждую часть сайта по сравнению с другими.

Если ваш сайт связан с другими обходными веб-сайтами, ваш сайт также будет сканироваться, начиная со страницы, связанной с сайтом, и в конечном итоге распространяется на остальную часть вашего сайта. Это может занять много времени и зависит от частоты сканирования сайтов ссылок, поэтому отправка URL-адресов - это самый быстрый способ сообщить Google о вас!

Один инструмент, который я не могу рекомендовать достаточно высоко, - Инструмент Google для веб-мастеров. Это позволяет вам видеть, как часто вы сканировались, какие ошибки зашифровал googlebot (сломанные ссылки и т.д.) И содержит множество других полезных инструментов.

Ответ 3

В принципе они начинаются с нуля. Только когда кто-то прямо говорит им включать свой сайт, они могут начать обходить этот сайт и использовать ссылки на этом сайте для поиска более.

Однако на практике создатель (и) поисковой системы помещает в некоторые произвольные сайты, о которых они могут подумать. Например, их собственные блоги или сайты, которые у них есть в своих закладок.

В теории можно было бы просто выбрать некоторые случайные адреса и посмотреть, есть ли там сайт. Я сомневаюсь, что кто-то это делает; вышеупомянутый метод будет работать очень хорошо и не требует дополнительного кодирования только для начальной загрузки поисковой системы.