Как остановить индексирование Google моего репозитория Github

Я использую Github для хранения текста одного из моих веб-сайтов, но проблема заключается в том, что Google индексирует текст в Github. Таким образом, тот же текст будет отображаться как на моем сайте, так и на Github. например этот поиск Топ-хит - это мой сайт. Второй хит - это репозиторий Github.

Я не возражаю, если люди видят источники, но я не хочу, чтобы Google его индексировал (и, возможно, наказывал за дублированный контент.) Есть ли какой-либо способ, кроме того, что я хочу, чтобы репозиторий был закрыт, чтобы сообщить Google прекратить его индексирование

Что происходит в случае Github Pages? Это сайты, где источник находится в репозитории Github. У них есть одна и та же проблема дублирования?

Возьмем этот поиск, самый верхний попадающий приводит к сайту Marpa, но я не вижу источник, указанный в результатах поиска. Как?

Ответ 1

Файл https://github.com/robots.txt файла GitHub позволяет индексировать blobs в ветки master, но ограничивает все остальные ветки. Поэтому, если у вас нет ветки "master", Google не должен индексировать ваши страницы.

Как удалить ветвь 'master':

В вашем клоне создайте новую ветку - позвольте ей "main" и нажмите ее в GitHub

git checkout -b main
git push -u origin main

В GitHub измените ветвь по умолчанию (см. раздел "Настройки" вашего репозитория) или здесь https://github.com/blog/421-pick-your-default-branch

Затем удалите главную ветку из вашего клона и из GitHub:

git branch -d master
git push origin :master

Получите других людей, которые, возможно, уже разветкили ваш репозиторий, чтобы сделать то же самое.

В качестве альтернативы, если вы хотите финансово поддержать GitHub, вы можете пойти в частном порядке https://help.github.com/articles/making-a-public-repository-private

Ответ 2

Если вы хотите придерживаться ведущей ветки, похоже, что нет возможности использовать частное репо (и пересчет вашей учетной записи GitHub) или другую услугу, предлагающую частные репозиции бесплатно, например Bitbucket.

Ответ 4

Короткая лента. Да, вы можете с помощью robots.txt.

Если вы хотите запретить Googlebot обходить контент на своем сайте, у вас есть ряд параметров, в том числе использование robots.txt для блокировки доступа к файлам и каталогам на вашем сервере.

Вам нужен файл robots.txt, только если ваш сайт содержит контент, который вы не хотите индексировать поисковые системы. Если вы хотите, чтобы поисковые системы индексировали все на вашем сайте, вам не нужен файл robots.txt(даже не пустой).

Пока Google не будет сканировать или индексировать содержимое страниц, заблокированных robots.txt, мы все равно можем индексировать URL-адреса, если мы найдем их на других страницах в Интернете. В результате URL-адрес страницы и, возможно, другая общедоступная информация, такая как якорный текст в ссылках на сайт, или заголовок из Open Directory Project (www.dmoz.org), могут отображаться в результатах поиска Google.

Источники:

http://support.google.com/webmasters/bin/answer.py?hl=en&answer=93708 http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156449