Динамический robots.txt

Скажем, у меня есть веб-сайт для размещения контента, созданного сообществом, который предназначен для очень определенного набора пользователей. Теперь, скажем, в интересах создания лучшего сообщества, у меня есть тема вне темы, где члены сообщества могут публиковать или говорить о чем угодно, независимо от главной темы сайта.

Теперь я хочу, чтобы большая часть контента была проиндексирована Google. Заметным исключением является внеконкурсный контент. Каждый поток имеет свою собственную страницу, но все потоки перечислены в одной папке, поэтому я не могу просто исключить поисковые системы из папки. Он должен быть на странице. Традиционный файл robots.txt станет огромным, так как же я могу это сделать?

Ответ 1

Это будет работать для всех поисковых систем, поддерживающих поведение, просто добавьте его в <head>:

<meta name="robots" content="noindex, nofollow" />

Ответ 2

Если вы используете Apache, я бы использовал mod-rewrite для alias robots.txt для script, который мог бы динамически генерировать необходимый контент.

Изменить: если вы используете IIS, вы можете использовать ISAPIrewrite, чтобы сделать то же самое.

Ответ 3

Символично предложению @James Marshall - в ASP.NET вы можете использовать HttpHandler для перенаправления вызовов на robots.txt на script, который сгенерировал контент.

Ответ 4

Вы можете реализовать его, заменив robots.txt динамическим script, генерирующим вывод. С помощью Apache вы можете сделать простое правило .htaccess, чтобы добиться этого.

RewriteRule  ^robots\.txt$ /robots.php [NC,L]

Ответ 5

Только для этого потока убедитесь, что ваша голова содержит метатег noindex. Это еще один способ сказать поисковым системам не сканировать вашу страницу, кроме блокировки в файле robots.txt

Ответ 6

Просто имейте в виду, что запрет robots.txt НЕ будет препятствовать Google индексировать страницы, на которых есть ссылки с внешних сайтов, все, что он делает, - это предотвращать сканирование внутри страны. См. http://www.webmasterworld.com/google/4490125.htm или http://www.stonetemple.com/articles/interview-matt-cutts.shtml.

Ответ 7

Вы можете запретить поисковым системам читать или индексировать ваш контент, ограничивая метатеги роботов. Таким образом, паук рассмотрит ваши инструкции и проиндексирует только те страницы, которые вы хотите.

Ответ 8

блокировать динамическую веб-страницу с помощью robots.txt использовать этот код


Пользовательский агент: *

Запретить:/setnewsprefs?

Запретить:/index.html?

Запретить:/?

Разрешить:/? hl =

Запретить:/? hl = * &