Как Google находит соответствующий контент при анализе веб-страниц?
Скажем, например, Google использует собственную DOM-библиотеку PHP для анализа содержимого. Какими методами они могли бы найти наиболее релевантный контент на веб-странице?
Мои мысли состоят в том, что он будет искать все абзацы, порядок по длине каждого абзаца, а затем из возможных строк поиска и параметров запроса выработать процент релевантности каждого абзаца.
Скажем, у нас был этот URL:
http://domain.tld/posts/stackoverflow-dominates-the-world-wide-web.html
Теперь из этого URL-адреса я бы выяснил, что имя файла HTML будет иметь большое значение, поэтому я увижу, насколько близко эта строка сравнивается со всеми параграфами на странице!
Хорошим примером этого может быть доля Facebook, когда вы делитесь страницей. Facebook быстро переводит ссылку и возвращает изображения, контент и т.д. И т.д.
Я думал, что какой-то расчетный метод будет лучшим, чтобы выработать% релевантности в зависимости от окружающих элементов и метаданных.
Существуют ли какие-либо книги/информация о наилучших методах анализа контента, которые описывают, как получить лучший контент с сайта, любые алгоритмы, о которых можно поговорить, или какой-либо подробный ответ?
Некоторые идеи, которые я имею в виду, следующие:
- Найти все абзацы и порядок по длине обычного текста
- Как-то найти контейнеры
div
ширины и высотыdiv
и упорядочить по (W + H) - @Benoit - Проверить ключевые слова, название, описание и проверить релевантность в параграфах
- Найти все теги изображений и порядок по наибольшему, а длина узлов - от основного абзаца.
- Проверьте данные объекта, такие как видео, и подсчитайте узлы из самого большого абзаца/содержимого div
- Разработанные сходства с предыдущими страницами проанализированы
Причина, по которой мне нужна эта информация:
Я создаю веб-сайт, на котором веб-мастера отправляют нам ссылки, а затем мы перечислим их страницы, но я хочу, чтобы веб-мастер отправил ссылку, затем я прохожу и просматриваю эту страницу, нахожу следующую информацию.
- Изображение (если применимо)
- A < 255 абзацев из лучшего фрагмента текста
- Ключевые слова, которые будут использоваться для нашей поисковой системы, (стиль)
- Метаданные Ключевые слова, описание, все изображения, журнал изменений (для модерации и администрирования)
Надеюсь, вы, ребята, поймете, что это не для поисковой системы, а то, как поисковые системы занимаются обнаружением контента, в том же контексте, что и для меня.
Я не прошу секретов торговли, я спрашиваю, каким будет ваш личный подход к этому.