Я был удивлен, узнав, что clara
из library(cluster)
допускает NA. Но функциональная документация ничего не говорит о том, как она обрабатывает эти значения.
Итак, мои вопросы:
- Как
clara
обрабатывает NA? - Можно ли это как-то использовать для
kmeans
(не разрешено)?
[Обновить] Итак, я нашел строки кода в clara
:
inax <- is.na(x)
valmisdat <- 1.1 * max(abs(range(x, na.rm = TRUE)))
x[inax] <- valmisdat
которые заменяют отсутствие значения на valmisdat
. Не уверен, что я понимаю причину использования такой формулы. Есть идеи? Было бы более "естественным" рассматривать НС по каждому столбцу отдельно, возможно, заменяя средним/медианным?