Я рассмотрел Алгоритмы Интеллектуальной Сети, которые описывают (стр. 55) интересный алгоритм - DocRank - для создания PageRank как оценка для деловых документов (т.е. документы без ссылок, таких как PDF, документы MS Word и т.д.). Короче говоря, он анализирует пересечение частот между каждым документом в коллекции.
Может ли кто-нибудь еще идентифицировать интересные алгоритмы, описанные в другом месте, или хочет поделиться чем-то новым здесь, применить к этим типам документов для улучшения результатов поиска?
Пожалуйста, не отвечайте на вопросы, связанные с отслеживанием кликов или другими действиями НЕ об анализе фактических документов.