У меня есть dev.qrcodecity.com и www.qrcodecity.com. Я хочу, чтобы Google удалил все записи субдомена dev, но сохранил www. Я использую git для хранения кода для обоих из них, поэтому в идеале я бы хотел, чтобы оба они имели один и тот же файл robots.txt. Возможно ли иметь один файл robots.txt, который исключает субдомен?
Запретить или Noindex на субдомене с robots.txt
Ответ 1
Извините, это, скорее всего, невозможно. Общее правило заключается в том, что каждый поддомен обрабатывается отдельно и, следовательно, оба должны иметь файлы robots.txt.
Часто субдомены реализуются с использованием подпапок с переписыванием URL на месте, где выполняется сопоставление, в котором вы хотите разделить один файл robots.txt по субдоменам. Вот хорошее обсуждение того, как это сделать: http://www.webmasterworld.com/apache/4253501.htm.
Однако в вашем случае вам нужно различное поведение для каждого поддомена, которому потребуются отдельные файлы.
Ответ 2
Вы можете использовать логику перезаписи Apache для обслуживания другого robots.txt
в домене разработки:
<IfModule mod_rewrite.c>
RewriteEngine on
RewriteCond %{HTTP_HOST} ^dev\.qrcodecity\.com$
RewriteRule ^robots\.txt$ robots-dev.txt
</IfModule>
И затем создайте отдельный robots-dev.txt
:
User-agent: *
Disallow: /
Ответ 3
Имейте в виду, что если вы заблокируете Google от индексирования страниц под субдоменом, они не будут (обычно) сразу же выпадать из индекса Google. Это просто останавливает Google от повторной индексации этих страниц.
Если субдомен dev еще не запущен, убедитесь, что у него есть собственный robots.txt, запрещающий все.
Однако, если в поддомене dev уже есть индексированные страницы, вам нужно сначала использовать метатеги robind noindex (для чего Google должен сначала сканировать страницы, чтобы прочитать этот запрос), а затем настроить файл robots.txt для dev, когда страницы выпадают из индекса Google (настройте учетную запись Google для веб-мастеров - это поможет вам это решить).
Ответ 4
Каждый поддомен на подаче обрабатывается как отдельный домен сам по себе, если вы заметили, что несколько бесплатных создателей сайтов позволяют размещать ваш сайт на своих сайтах с доменным именем, похожим на yourname.websitemake.com. И в результате каждый сайт индексируется отдельно в поисковых системах.
Итак, что вы можете сделать для достижения этого, вы можете добавить новый "robots.txt" в папку поддомена и указать следующее, чтобы запретить сканерам индексировать ваш поддомен.
User-agent: *
Disallow: /