Насколько детально должен быть мой sitemap для многоязычного сайта?

У меня есть сайт на одной странице, который включает в себя главную страницу на английском языке и французскую главную страницу. Доступ к моему сайту можно получить по следующим URL-адресам:

АНГЛИЙСКАЯ ВЕРСИЯ ГЛАВНОЙ СТРАНИЦЫ

  • www.example.org
  • www.example.org/index.html
  • example.org
  • example.org/index.html

ФРАНЦУЗСКАЯ ВЕРСИЯ ГЛАВНОЙ СТРАНИЦЫ

  • www.example.org/fr
  • www.example.org/fr/index.html
  • example.org/fr
  • example.org/fr/index.html

Для оптимальной индексации поисковых систем следует включить все эти URL-адреса в мою карту сайта (с http:// и https://)? Если нет, каков будет набор URL-адресов, которые я должен включить в файл sitemap.xml?

Ответ 1

Вы должны включать все уникальные страницы в свой файл Sitemap один раз.

Все перечисленные вами URL-адреса - это просто разные способы доступа к одной и той же странице/контенту, так же как и большинство приложений PHP можно получить через site.org/ или site.org/index.php. Ваша карта сайта должна содержать только одну ссылку на страницу.

Ответ 2

Лучшей практикой является наличие одного канонического URL-документа на документе. И каждый канонический URL-адрес должен быть добавлен в ваш файл Sitemap (если он у вас есть).

Таким образом, в вашем случае вы можете использовать один URL для главной страницы на английском языке и один URL для главной страницы Франции и перенаправить (с статус HTTP код 301) от других URL-адресов к каноническим. Кроме того, вы можете объявить канонический URL с ссылкой canonical.

Если вам необходимо предоставить HTTP в дополнение к HTTPS (вместо принудительного HTTPS), вам, конечно же, необходимо иметь два URL-адреса на один документ (один с HTTP, один с HTTPS). Но вы > должен указывать только один вариант в карте сайта, и вы должны объявить его только как canonical (в идеале, то же самое, что вы добавили в карту сайта).

Какие URL-адреса для выбора могут зависеть от различных факторов (юзабилити, SEO, вашего бэкэнда,...), но кажется безопасным предположить, что index.html является балластом. Вы должны решить, следует ли использовать субдомен www (общий договор) или нет. Предполагая, что вы решили опустить его, вы можете использовать эти канонические URL-адреса:

https://example.org/
https://example.org/fr

И вы перенаправите следующие URL-адреса с 301 на перечисленные выше канонические URL-адреса:

https://example.org/index.html
https://www.example.org/
https://www.example.org/index.html
https://example.org/fr/index.html
https://www.example.org/fr
https://www.example.org/fr/index.html