Google. Отключите определенную последовательность запросов в файле robots.txt.

http://www.site.com/shop/maxi-dress?colourId=94&optId=694
http://www.site.com/shop/maxi-dress?colourId=94&optId=694&product_type=sale

У меня есть тысячи URL-адресов, как указано выше. Различные комбинации и имена. У меня также есть дубликаты этих URL-адресов, у которых есть строка запроса product_type=sale

Я хочу отключить Google от индексирования чего-либо с помощью product_type=sale

Возможно ли это в файле robots.txt

Ответ 1

Google поддерживает подстановочные знаки в файле robots.txt. Следующая директива в robots.txt предотвратит сканирование Googlebot на любой странице с любыми параметрами:

Disallow: /*?

Это не помешает многим другим паукам сканировать эти URL-адреса, потому что подстановочные знаки не являются частью стандартного файла robots.txt.

Google может занять свое время, чтобы удалить заблокированные из индекса поиска URL-адреса. Дополнительные URL-адреса могут по-прежнему индексироваться в течение нескольких месяцев. Вы можете ускорить процесс, используя функцию "Удалить URL-адреса" в инструментах для веб-мастеров после их блокировки. Но это ручной процесс, когда вам нужно вставлять каждый отдельный URL-адрес, который вы хотите удалить.

Это может также повредить вашему сайту рейтинг Google для использования этого правила robots.txt в случае, если Googlbot не находит версию URL без параметров. Если вы обычно ссылаетесь на версии с параметрами, вы, вероятно, не хотите их блокировать в файле robots.txt. Было бы лучше использовать один из других вариантов ниже.

Лучше всего использовать rel канонический метатег на каждой из ваших страниц.

Таким образом, оба примера URL-адреса будут иметь следующий раздел:

<link rel="canonical" href="http://www.site.com/shop/maxi-dress">

Это говорит Googlebot не индексировать так много вариантов страницы, а только индексировать "каноническую" версию URL-адреса, который вы выберете. В отличие от использования robots.txt, Googlebot все равно сможет сканировать все ваши страницы и присвоить им значение, даже если они используют различные параметры URL.

Другой вариант - войти в Инструменты Google для веб-мастеров и использовать функцию "Параметры URL", которая находится в разделе "Сканирование".

После этого нажмите "Добавить параметр". Вы можете установить "product_type" на "Не влияет на содержимое страницы", чтобы Google не сканировал и не индексировал страницы с этим параметром.

Сделайте то же самое для каждого из параметров, которые вы используете, которые не меняют страницу.

Ответ 2

Да, это довольно прямолинейно. Добавьте следующую строку в файл robots.txt:

Запретить:/* product_type = sale

Предыдущая wild card (*) означает, что любые URL-адреса, содержащие product_type=sale, больше не будут сканироваться Google.

Хотя они все равно могут оставаться в индексе Google, если они были там ранее, но Google больше не сканирует их, и при просмотре в поиске Google скажет: описание этого результата недоступно из-за этого сайта robots.txt - узнать больше.

Далее читайте здесь: Спецификации Robots.txt