Я хочу представить структуру кадра данных (или матрицы, или data.table независимо) на одном участке с цветовым кодированием. Я думаю, это может быть очень полезно для многих людей, обрабатывающих различные типы данных, чтобы визуализировать их одним взглядом.
Возможно, кто-то уже разработал пакет для этого, но я не смог найти его (просто this). Итак, вот грубый макет моего "видения", своего рода тепловая карта, показывающая цветовые коды:
- местоположения NA,
- класс переменных (коэффициенты (сколько уровней?), числовые (с градиентом цвета, нулями, выбросами...), строки)
- Размеры
- и т.д.....
До сих пор я только что написал функцию, чтобы нарисовать расположения NA, как это:
ggSTR = function(data, alpha=0.5){
require(ggplot2)
DF <- data
if (!is.matrix(data)) DF <- as.matrix(DF)
to.plot <- cbind.data.frame('y'=rep(1:nrow(DF), each=ncol(DF)),
'x'=as.logical(t(is.na(DF)))*rep(1:ncol(DF), nrow(DF)))
size <- 20 / log( prod(dim(DF)) ) # size of point depend on size of table
g <- ggplot(data=to.plot) + aes(x,y) +
geom_point(size=size, color="red", alpha=alpha) +
scale_y_reverse() + xlim(1,ncol(DF)) +
ggtitle("location of NAs in the data frame")
pc <- round(sum(is.na(DF))/prod(dim(DF))*100, 2) # % NA
print(paste("percentage of NA data: ", pc))
return(g)
}
Он принимает данные data.frame во вводе и возвращает это изображение:
Это слишком большая задача для достижения первого изображения.