Интерпретация "stat_summary = mean_cl_boot" в ggplot2?

возможно простой вопрос Я попытался сделать ошибочный график, как показано на стр. 532 поля "Обнаружение статистики с помощью R".

Код можно найти здесь http://www.sagepub.com/dsur/study/DSUR%20R%20Script%20Files/Chapter%2012%20DSUR%20GLM3.R:

line <- ggplot(gogglesData, aes(alcohol, attractiveness, colour = gender))
line + stat_summary(fun.y = mean, geom = "point") + 
stat_summary(fun.y = mean, geom = "line", aes(group= gender)) + 
stat_summary(fun.data = mean_cl_boot, geom = "errorbar", width = 0.2) + 
labs(x = "Alcohol Consumption", y = "Mean Attractiveness of Date (%)", colour = "Gender")  

Я создал тот же граф; моя переменная оси y имеет только 4 точки (это дискретный масштаб, 1-4), теперь ось y имеет точки 1,5, 2, 2,5, в которых линии меняются.

И возникает вопрос: что описывают эти точки и графики? Я полагаю, что важная часть stat_summary(fun.data = mean_cl_boot, geom = "errorbar", width = 0.2) - это количество наблюдений для этой группы и этот уровень (ось x)? Являются ли они частотами? Или это пропорции?

Я нашел этот http://docs.ggplot2.org/0.9.3/stat_summary.html, но мне это не помогло

Спасибо

Ответ 1

Вот что говорит ggplot2 книга на стр. 83 о mean_cl_boot()

Function          Hmisc original        Middle Range
mean_cl_boot() smean.cl.boot() Mean Standard error from bootstrap

Я думаю, что это smean.cl.boot() из пакета Hmisc, но переименован как mean.cl.boot() в ggplot2.

и здесь - это определение исходной функции из пакета Hmisc:

smean.cl.boot - очень быстрая реализация базового непараметрического бутстрапа для получения доверительных пределов для среднего значения совокупности без предположения о нормальности

Ответ 2

Я воспроизвел график, используя ваш код, и я получаю по существу тот же график, который показан в полевой книге "Обнаружение статистики с использованием R", рис. 12.12, стр. 532, за исключением упорядочения переменных по оси x. Ось y отображает непрерывную переменную, Среднюю привлекательность даты (%). 95% доверительных интервалов, созданных - как вы указываете, - с помощью функции stat_summary(), а аргумент mean_cl_boot - доверительные интервалы начальной загрузки, используя функцию smean.cl.boot() в Hmisc, о чем указывает другой комментатор выше. Эта функция описана на стр. 262 документации Hmisc . Документация ggplot2 для среднего_cl_boot разрежена и отсылается к описанию в пакете Hmisc.

Обратите внимание, что аргументы to mean_cl_boot в ggplot2 такие же, как в функции smean.cl.boot в пакете Hmisc. Вы можете изменить желаемый уровень доверия по умолчанию .95, используя аргумент conf.int и количество выборок бутстрапа, используя аргумент B. Здесь, например, это код для создания одного и того же графика с доверительным интервалом 99% и 5000 образцов начальной загрузки:

line <- ggplot(gogglesData, aes(alcohol, attractiveness, colour = gender))
line + stat_summary(fun.y = mean, geom = "point") + 
stat_summary(fun.y = mean, geom = "line", aes(group= gender)) + 
stat_summary(fun.data = mean_cl_boot, conf.int = .99, B = 5000, geom = "errorbar", width = 0.2) + 
labs(x = "Alcohol Consumption", y = "Mean Attractiveness of Date (%)", colour = "Gender")