Какой метод вы используете для выбора оптимального количества кластеров в k-средствах и EM?

Доступны многие алгоритмы кластеризации. Популярным алгоритмом является K-средство, где на основе заданного количества кластеров алгоритм выполняет поиск наилучших кластеров для объектов.

Какой метод вы используете для определения количества кластеров в данных в кластеризации k-значений?

Доступен ли какой-либо пакет в R с помощью метода V-fold cross-validation для определения правильного количества кластеров?

Другим хорошо используемым подходом является алгоритм максимизации ожиданий (EM), который присваивает распределение вероятности каждому экземпляру, что указывает на вероятность его принадлежности к каждому из кластеров.

Этот алгоритм реализован в R?

Если это так, имеет ли он возможность автоматически выбирать оптимальное количество кластеров путем перекрестной проверки?

Вы предпочитаете какой-то другой метод кластеризации?

Ответ 1

Для больших "редких" наборов данных я бы серьезно рекомендовал метод "Распространение близости". Он обладает превосходной производительностью по сравнению с k средствами и является детерминированным по своей природе.

http://www.psi.toronto.edu/affinitypropagation/Он был опубликован в журнале "Наука".

Однако выбор оптимального алгоритма кластеризации зависит от рассматриваемого набора данных. K Means - метод текстовой книги, и очень вероятно, что у кого-то был разработан лучший алгоритм, более подходящий для вашего типа набора данных /

Это хороший учебник профессора Эндрю Мура (CMU, Google) на K-средствах и иерархическом кластеризации. http://www.autonlab.org/tutorials/kmeans.html

Ответ 2

На прошлой неделе я закодировал такой алгоритм оценки-числа-кластеров для программы кластеризации K-Means. Я использовал метод, описанный в:

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.70.9687&rep=rep1&type=pdf

Моя самая большая проблема с реализацией заключалась в том, что мне пришлось найти подходящий индекс проверки кластеров (т.е. показатель ошибки), который будет работать. Теперь речь идет о скорости обработки, но результаты в настоящее время выглядят разумно.