Как Google использует HTML-теги для улучшения поисковой системы?

Я знаю, что поисковый алгоритм Googles в основном основан на pagerank. Однако он также анализирует и использует структуру документа H1, H2, title и другие теги HTML для улучшения результатов поиска.

Как называется этот метод "с использованием структуры документа для улучшения результатов поиска"?

И есть ли какие-нибудь научные документы, которые помогут мне изучить эту область?

Тот факт, что Google учитывает структуру HTML, хорошо освещен в статьях SEO, но я не мог найти его в научных статьях.

Ответ 1

Я думаю, что он называется "Semantic Markup"

[...] семантическая разметка - это разметка, которая достаточно описательна, чтобы позволить нам и машинам, которые мы программируем, распознавать и принимать решения об этом. Другими словами, разметка означает что-то, когда мы можем идентифицировать ее и делать с ней полезные вещи. Таким образом, семантическая разметка становится более чем просто описательной. Он становится блестящим механизмом, который позволяет и людям, и машинам "понимать" ту же информацию. http://www.digital-web.com/articles/writing_semantic_markup/

Более практичная статья здесь http://robertnyman.com/2007/10/29/explaining-semantic-mark-up/

Ответ 2

SEO стал почти религией для некоторых людей, где они одержимы мелочами. Честно говоря, я не уверен, что все эти усилия оправданы.

Мой совет? Игнорируйте то, что говорят так называемые эксперты, и просто следуйте Руководствам Google.

Возможно, вы ищете академический ответ, но, честно говоря, это не академический вопрос, выходящий за рамки основ работы веб-индексирования. Реальность современного индексации страниц и алгоритма ранжирования гораздо сложнее.

Возможно, вам захочется взглянуть на один из ранних работает в поисковых системах. Обратите внимание на имена авторов. Вы также можете прочитать патентную заявку Google 20050071741.

Эти общие принципы в стороне, Алгоритм поиска Google постоянно изменен на основе фактических и желаемых результатов. Точная работа - это тщательно охраняемая тайна, чтобы сделать ее более сложной для людей в игре. Большая часть "совета" или описания того, как работает алгоритм поиска Google, - это чистое предположение.

Таким образом, помимо наличия заголовка и корректного HTML-кода, я не думаю, что вы найдете то, что ищете.

Ответ 3

Google очень намеренно не дает слишком много информации об алгоритме поиска, поэтому вряд ли вы найдете окончательный ответ или академическую работу, подтверждающую это. Если вас интересует SEO-точка зрения, просто напишите свои страницы, чтобы они были хороши для людей, и роботы тоже понравятся им.

Чтобы сделать страницу хорошей для людей, вам следует использовать теги, такие как h1, h2 и т.д., чтобы создать иерархическую стоимость страниц... немного похоже на это...

h1 "Свяжитесь с нами" ... h2 "Контактная информация" ...... h3 "Телефонные номера" ...... h3 "Адреса электронной почты" ... h2 "Как нас найти" ...... h3 "На автомобиле" ...... h3 "Поездом"

Трудность в вашем вопросе заключается в том, что если вы поместите что-то в свой h1-тэг, надеясь, что он увеличит вашу позицию в Google, но это не соответствует другому содержанию на вашей странице, вы можете выглядеть как спам. Точно так же, если ваша страница состоит из слишком большого количества заголовков и недостаточно фактического контента, вы можете выглядеть как спам. Это не так просто, как добавить тег h1 и h2, и вы встанете! Вот почему вам нужно писать сайты для людей, а не для роботов.

Ответ 4

Я нашел эту статью:

Новое исследование по использованию HTML-структур для улучшения поиска

однако это старая статья 1999 года,

все еще ищет более свежие документы.

Ответ 5

Отъезд http://jcmc.indiana.edu/vol12/issue3/pan.html http://www.springerlink.com/content/l22811484243r261/

Некоторое время, потраченное на scholar.google.com, может помочь вам найти то, что вы ищете

Ответ 6

Вы также можете попробовать найти раздел "Информатика" в arXiv: http://arxiv.org для "поисковой системы" и различные термины, которые другие предложили.

Он содержит много научных статей, все свободно доступны... надеюсь, некоторые из них будут иметь отношение к вашим исследованиям. (Конечно, существует оговорка о проверке любого бумажного содержимого).

Ответ 7

Как сказал cletus, следуйте рекомендациям Google.

Я сделал несколько тестов, пришел к выводу, что наиболее важными являются названия, изображения alt и h. Также стоит упомянуть google adsense. У меня возникло ощущение, что если вы их реализуете, ранг вашего сайта увеличивается.

Ответ 8

Я считаю, что то, что вас интересует, называется структурной отпечаткой пальцев, и часто используется для определения сходства двух структур. В случае Google, применяя вес к различным тегам и применяя к секретному алгоритму, который (вероятно) использует частоты различных элементов в отпечатке пальца. Это глубоко связано с теорией информации - если вы ищете научные статьи по теории информации, я бы начал с "Математическая теория коммуникации" Клод Шеннон

Ответ 9

Я также предлагаю посмотреть Microformats и RDF. Оба используются для улучшения поиска. Это в основном агностик поисковой системы, но есть и некоторые специфические вещи. Для специальных рекомендаций Google для содержимого HTML прочтите эту ссылку.

Ответ 10

Короче говоря; очень осторожно. Длинные:

Цитата из анатомия крупномасштабной поисковой системы гипертекстового поиска:

[...] Это дает нам ограниченный поиск фразы до тех пор, пока есть не так много якорей для конкретного слово. Мы ожидаем обновления анкерные хиты сохраняются для большее разрешение в положении и docIDhash. Мы используем размер шрифта относительно остальной части документа потому что при поиске вы не в противном случае документов по-разному только потому, что один документов находится в большем font. [...]

Продолжается:

[...] Еще одно большое различие между Интернет и традиционные хорошо управляемые коллекции - это то, что практически не контролирует, что люди могут размещать в Интернете. Пара эта гибкость, чтобы публиковать что-либо с огромным влиянием поиска двигатели для маршрутизации трафика и компаний которые сознательно манипулируют поиском двигатели для получения прибыли становятся серьезными проблема. Эта проблема, которая не были рассмотрены в традиционных закрытых информационно-поисковые системы. Кроме того, интересно отметить, что попытки метаданных в значительной степени с веб-поисковыми системами, поскольку любые текст на странице, который не является прямым представленный пользователю, подвергается манипулировать поисковыми системами. [...]

Проблемы в поисковой машине решает эти проблемы более современным способом:

[...] Веб-страницы в HTML попадают в середину этого континуума структуры в документах, не будучи ни свободным, ни хорошо структурированным. Вместо этого разметка HTML предоставляет ограниченную структурную информацию, обычно используемую для управления макетом, но предоставляющую ключи к семантической информации. Информация о макетах в HTML может показаться ограниченной полезностью, особенно по сравнению с информацией, содержащейся в таких языках, как XML, которые можно использовать чтобы пометить контент, но на самом деле он является особенно ценным источником метаданных в ненадежных корпусах, таких как Интернет. Значение в информации о макете связано с тем, что оно видимо пользователю [...]:

И добавляет:

[...] HTML-теги могут быть проанализированы для получения семантической информации. В дополнение к тегам заголовка, упомянутым выше, есть теги, которые управляют шрифтом (жирным шрифтом, курсивом), размером и цветом. Они могут быть проанализированы, чтобы определить, какие слова в документе, который автор считает особенно важным. Одним из преимуществ HTML или любого языка разметки, который очень близко сопоставляется с тем, как отображается контент, является то, что есть меньше возможностей для злоупотреблений: трудно использовать разметку HTML таким образом, чтобы побудить поисковые системы думать, что выделенный текст является важным, в то время как пользователям это кажется несущественным. Например, фиксированное значение тега означает, что любой текст в контексте HI будет заметно отображаться на отображаемой веб-странице, поэтому для поисковых систем безопасно взвешивать этот текст. Тем не менее, надежность разметки HTML уменьшается за счет каскадных таблиц стилей, которые отделяют имена тегов от их представления. Было проведено исследование по извлечению информации из той структуры, в которой HTML обладает. Например, [Chakrabarti etal, 2001; Chakrabarti, 2001] создал дерево DOM HTML-страницы и использовал эту информацию для повышения точности перегонки темы, метода анализа на основе ссылок.

Существует множество проблем, с которыми приходится сталкиваться современной поисковой системе, например, веб-спам и схемы blackhat SEO.

Но даже в идеальном мире, например. после устранения плохих яблок из индекса, сеть все еще является полным беспорядком, потому что никто не имеет одинаковых структур. Существуют карты, игры, видео, фотографии (flickr) и много и много пользовательского контента. Другими словами, сеть все еще очень непредсказуема.

Ресурсы

Ответ 11

Держать его мучительно просто. Сделайте свою информационную архитектуру логичной. Если наиболее важные элементы для понимания пользователя выделены заголовками и сгруппированы логически, то документ легче интерпретировать с использованием алгоритмов обработки информации. Магически это также будет проще для пользователей интерпретировать. Помните, что алгоритмы поисковой системы были написаны людьми, пытающимися интерпретировать язык.

Основной процесс: Напишите хорошо структурированный HTM L - используя теги заголовка, чтобы указать наиболее важные элементы на странице. Используйте логические теги на основе структуры вашей информации. Списки для списков, заголовки для основных тем.

Поставьте соответствующие теги alt и имена для любых визуальных элементов, а затем используйте простой css для упорядочивания этих элементов.

Если сайт работает хорошо для пользователей и содержит релевантную информацию, вы не рискуете стать черным спамером, и алгоритмы поисковой системы будут способствовать вашей странице.

Мне очень понравилась книга Превышение CSS для чистого объяснения правильно структурированного HTML.

Ответ 12

Я предлагаю попробовать Google ученого как один из ваших возможностей при поиске академических статей

семантический поиск

Ответ 13

Мне было интересно, что - без мета-ключевых слов и описания - в сценарии, подобном этому:

<p>Some introduction</p>
<h1>headline 1</h1>
<p>text for section one</p>

На странице результатов поиска всегда отображается "текст для раздела один".

Ответ 14

Новый тег для использования, называемый CANONICAL, теперь также можно использовать, от Google, нажмите ЗДЕСЬ