Получить список наиболее популярных вариантов параметров GET для данного URL-адреса?

Я работаю над построением интеллекта вокруг распространения ссылок и потому, что мне нужно иметь дело со многими короткими службами URL, где требуется обратный поиск с точного URL-адреса, мне нужно иметь возможность разрешать несколько приблизительных версий тот же URL.

Примером может служить URL-адрес, например http://www.example.com?ref=affil&hl=en&ct=0

Конечно, изменение параметров GET в определенных обстоятельствах может относиться к совершенно другой странице, особенно если рассматриваемые параметры GET относятся к профилю или идентификатору контента.

Но быстрый анализ страницы быстро определит, насколько похожи страницы друг другу. Используя немного машинного обучения, можно быстро понять, какие параметры GET не влияют на содержание страниц, возвращенных для данного сайта.

Я предполагаю, что служба для отправки URL-адреса и получения списка очень похожих URL-адресов может быть предложена только Google или Yahoo (или Twitter), но они, похоже, не предлагают эту функцию, и я не нашли других услуг, которые делают.

Если вы знаете о каких-либо услугах, которые группируют группы практически идентичных URL-адресов вышеупомянутым способом, сообщите мне.

Моя щедрость объятия.

Ответ 1

Каждый URL-адрес похож на "адрес" на местоположение данных в Интернете. Часть "хоста" URL-адреса (в вашем примере "www.example.com" ) представляет собой веб-сервер или набор веб-серверов где-то в мире. Если мы будем рассматривать URL как "адрес", то хозяин может быть "страной".

Сама страна может отслеживать каждую отправленную им почту. Некоторые это делают, другие - нет. Я говорю о веб-серверах! Конечно, реальные страны не отмечают каждую почту, которую вы получаете!: -)

Но даже если эта "страна" отслеживает каждую часть почты - я действительно сомневаюсь, что у них есть какой-либо механизм для отправки этого списка вам.

Что касается организаций, которые могут это сделать, я думаю, что лучшим вариантом будет Google, но даже там ситуация довольно мрачная. Понимаете, поскольку Google не является владельцем каждого веб-сервера ( "страны" ) в мире, они не могут знать каждый URL-адрес, который обращается к этому веб-серверу.

Но они могут сделать обратное. Поскольку они могут индексировать каждую страницу, с которой они сталкиваются, они могут получить довольно хорошее представление о каждом URL-адресе, который отображается в общедоступных HTML-страницах в Интернете. Конечно, это не будет включать URL-адреса, отправленные друг другу в чатах, SMS-сообщениях или электронной почте. Но все же они могут получить довольно хорошее представление о том, какие URL существуют.

Я предполагаю, что я пытаюсь сказать, что то, что вы ищете, действительно не существует. Единственный способ получить все URL-адреса, используемые для доступа к одиночному веб-сайту, должен быть владельцем этого веб-сайта.

Извините, приятель.

Ответ 2

Похоже, вам нужно создать какой-то дискретный ранг сходства между страницами. Это можно сделать, если найти количество похожих слов между двумя страницами и нормализовать значение до ограниченного диапазона, а затем отобразить некоторые части диапазона в разные ранги сходства.

Вам также нужно знать для каждой пары, что вы сравниваете параметры GET, которые у них были общие или насколько они близки. Эта информация станет атрибутами, которые определяют каждый из ваших экземпляров (хранящихся рядом с рангом, упомянутым выше). После того, как вы собрали несколько сотен пар сравнений, вы, возможно, можете сделать некоторый выбор подмножества функций, чтобы идентифицировать параметры GET, которые наиболее точно определяют, как похожи эти две страницы.

Конечно, это может не найти ничего полезного, поскольку этот набор данных, вероятно, будет содержать много шума.

Если вы заинтересованы в этом подходе, вы должны посмотреть в разделе Infogain и подмножество функций в целом. Это ссылка на лекции моих профессоров, которые могут пригодиться. http://stuff.ttoy.net/cs591o/FSS.html