Есть ли способ предотвратить Googlebot от индексирования определенных частей страницы?

Можно ли точно настроить директивы для Google до такой степени, что она будет игнорировать часть страницы, но все же указывать остальные?

Есть несколько различных проблем, с которыми нам пришлось столкнуться, например:

Текст RSS-канала RSS-ленты/новостей на странице, отображающей контент из внешнего источника.
пользователи, входящие в контактный телефон и т.д., которые хотят, чтобы они были видимыми на сайте, но скорее они не будут доступны для Google.

Я знаю, что оба вышеупомянутых могут быть решены с помощью других методов (например, написания контента с помощью JavaScript), но мне интересно, знает ли кто-нибудь, есть ли более удобный вариант из Google?

Я делал некоторые рывки на этом и натолкнулся на упоминания googleon и googleoff теги, но они, похоже, быть эксклюзивным для Google Search Appliances.

Кто-нибудь знает, есть ли подобный набор тегов, к которым Googlebot будет придерживаться?

Изменить. Чтобы уточнить, я не хочу идти по опасному маршруту клоакинга/обслуживать другой контент в Google, поэтому я смотрю, есть ли там "законным" способом достижения того, что я хотел бы сделать здесь.

Ответ 1

То, что вы просите, не может быть сделано, Google либо берет всю страницу, либо ничего.

Вы могли бы сделать некоторые подлые трюки, хотя, например, вставить часть страницы, которую вы не хотите индексировать в iFrame, и использовать файл robots.txt, чтобы попросить Google не индексировать этот iFrame.

Ответ 2

Вкратце NO - если вы не используете cloaking with, это обескураживает Google.

Ответ 3

Пожалуйста, ознакомьтесь с официальной документацией здесь

http://code.google.com/apis/searchappliance/documentation/46/admin_crawl/Preparing.html

Перейдите в раздел "Исключение нежелательного текста из индекса"

<!--googleoff: index-->
here will be skipped
<!--googleon: index-->

Ответ 4

Нашел полезный ресурс для использования определенного дублированного содержимого и не позволял индексу поисковой системой для такого контента.

<p>This is normal (X)HTML content that will be indexed by Google.</p>

<!--googleoff: index-->

<p>This (X)HTML content will NOT be indexed by Google.</p>

<!--googleon: index>

Ответ 5

На вашем сервере обнаружение поискового робота по IP с помощью PHP или ASP. Затем подайте IP-адреса, которые попадают в этот список, на версию страницы, которую вы хотите проиндексировать. В этой дружественной поисковой системе вашей странице используйте тег канонической ссылки, чтобы указать поисковой системе версию страницы, которую вы не хотите индексировать.

Таким образом, страница с содержимым, которое хочет быть индексом, будет индексироваться по адресу только тогда, когда будет проиндексирован только тот контент, который вы хотите проиндексировать. Этот метод не заставит вас заблокировать поисковые системы и полностью безопасен.

Ответ 6

Да, вы можете помешать Google индексировать некоторые части вашего сайта, создав собственный файл robots.txt и напишите, какие части вы не хотите индексировать, как wpadmins, или конкретную почту или страницу, чтобы вы могли сделать это легко, создав этот файл robots.txt. Перед созданием проверьте свой сайт robots.txt, например, www.yoursite.com/robots.txt.

Ответ 7

Существуют метатеги для ботов, а также файл robots.txt, с помощью которого вы можете ограничить доступ к определенным каталогам.

Ответ 8

Все поисковые системы индексируют или игнорируют всю страницу. Единственный возможный способ реализовать то, что вы хотите:

(a) имеют две разные версии одной и той же страницы

(b) обнаружение используемого браузера

Эта ссылка может оказаться полезной.