Я применил кластеризацию в наборе текстовых документов (около 100). Я преобразовал их в Tfidf
векторы с помощью TfIdfVectorizer
и поставил векторы в качестве входных данных в scikitlearn.cluster.KMeans(n_clusters=2, init='k-means++', max_iter=100, n_init=10)
. Теперь, когда я
model.fit()
print model.score()
на моих векторах, я получаю очень небольшое значение, если все текстовые документы очень похожи, и я получаю очень большое отрицательное значение, если документы очень разные.
Он служит моей основной цели - найти, какой набор документов похож, но может ли кто-нибудь помочь мне понять, что именно означает это значение model.score()
для соответствия? Как я могу использовать это значение для оправдания моих результатов?