Я работаю над построением интеллекта вокруг распространения ссылок и потому, что мне нужно иметь дело со многими короткими службами URL, где требуется обратный поиск с точного URL-адреса, мне нужно иметь возможность разрешать несколько приблизительных версий тот же URL.
Примером может служить URL-адрес, например http://www.example.com?ref=affil&hl=en&ct=0
Конечно, изменение параметров GET в определенных обстоятельствах может относиться к совершенно другой странице, особенно если рассматриваемые параметры GET относятся к профилю или идентификатору контента.
Но быстрый анализ страницы быстро определит, насколько похожи страницы друг другу. Используя немного машинного обучения, можно быстро понять, какие параметры GET не влияют на содержание страниц, возвращенных для данного сайта.
Я предполагаю, что служба для отправки URL-адреса и получения списка очень похожих URL-адресов может быть предложена только Google или Yahoo (или Twitter), но они, похоже, не предлагают эту функцию, и я не нашли других услуг, которые делают.
Если вы знаете о каких-либо услугах, которые группируют группы практически идентичных URL-адресов вышеупомянутым способом, сообщите мне.
Моя щедрость объятия.