Некоторое время я пытался найти способ разумного извлечения "релевантного" текста из URL-адреса, исключив текст, связанный с рекламой и всем другим беспорядком. После нескольких месяцев исследований я отказался от этого как проблему, которая не может быть точно определена. (Я пробовал разные способы, но никто не был надежно)
Неделю назад я наткнулся на Readability - плагин, который преобразует любой URL в удобочитаемый текст. Это выглядит довольно точно для меня. Я предполагаю, что у них как-то есть алгоритм, достаточно умный, чтобы извлечь соответствующий текст.
Кто-нибудь знает, как они это делают? Или как я могу сделать это надежно?