У меня есть большой набор данных, который я хотел бы скопировать. Размер моего пробного запуска - 2500 объектов; когда я запускаю его на "реальной сделке", мне нужно будет обрабатывать не менее 20 тыс. объектов.
Эти объекты имеют сходство косинусов между ними. Такое подобие косинуса не удовлетворяет требованиям математической метрики расстояния; он не удовлетворяет неравенству треугольника.
Я хотел бы сгруппировать их каким-то "естественным" способом, который объединяет аналогичные объекты, не указывая заранее количество ожидаемых кластеров.
Кто-нибудь знает об алгоритме, который это сделает? Действительно, я просто ищу любой алгоритм, который не требует a) метрики расстояния и b) заранее заданного количества кластеров.
Большое спасибо!
Этот вопрос задан здесь: Кластеризация из значений подобия косинуса (но это решение предлагает только кластеризацию K-сред), а здесь: Эффективная кластеризация матрицы подобия (но это решение было довольно расплывчатым)