Объясненный коэффициент дисперсии TruncatedSVD не в порядке убывания, в отличие от склеарна PCA. Я посмотрел на исходный код, и кажется, что они используют другой способ вычисления объясненного отношения дисперсии:
U, Sigma, VT = randomized_svd(X, self.n_components,
n_iter=self.n_iter,
random_state=random_state)
X_transformed = np.dot(U, np.diag(Sigma))
self.explained_variance_ = exp_var = np.var(X_transformed, axis=0)
if sp.issparse(X):
_, full_var = mean_variance_axis(X, axis=0)
full_var = full_var.sum()
else:
full_var = np.var(X, axis=0).sum()
self.explained_variance_ratio_ = exp_var / full_var
СПС:
U, S, V = linalg.svd(X, full_matrices=False)
explained_variance_ = (S ** 2) / n_samples
explained_variance_ratio_ = (explained_variance_ /
explained_variance_.sum())
PCA
использует сигму для непосредственного вычисления объясненной переменной, и поскольку сигма находится в порядке убывания, объясненная переменная также находится в порядке убывания. С другой стороны, TruncatedSVD
использует дисперсию столбцов преобразованной матрицы для вычисления объясненной_вариантности, и, следовательно, дисперсии не обязательно находятся в порядке убывания.
Означает ли это, что мне нужно сначала отсортировать explained_variance_ratio
из TruncatedSVD
, чтобы найти основные компоненты принципа k?