Я был удивлен, узнав, что clara из library(cluster) допускает NA. Но функциональная документация ничего не говорит о том, как она обрабатывает эти значения.
Итак, мои вопросы:
- Как
claraобрабатывает NA? - Можно ли это как-то использовать для
kmeans(не разрешено)?
[Обновить] Итак, я нашел строки кода в clara:
inax <- is.na(x)
valmisdat <- 1.1 * max(abs(range(x, na.rm = TRUE)))
x[inax] <- valmisdat
которые заменяют отсутствие значения на valmisdat. Не уверен, что я понимаю причину использования такой формулы. Есть идеи? Было бы более "естественным" рассматривать НС по каждому столбцу отдельно, возможно, заменяя средним/медианным?