Задний план
Прямо сейчас я создаю линейную модель с несколькими предикторами и строю диагностические графики для оценки допущений регрессии. (Это для класса статистики множественного регрессионного анализа, который мне нравится в данный момент :-)
В моем учебнике (Коэн, Коэн, Уэст и Айкен, 2003) рекомендуется строить график зависимости каждого предиктора от остатков, чтобы убедиться, что:
- Остатки систематически не коррелируют с предиктором
- Остатки гомоскедастичны по отношению к каждому предиктору в модели.
По пункту (2) в моем учебнике сказано следующее:
Некоторые статистические пакеты позволяют аналитику строить линии соответствия с наименьшим значением среднего значения остатков (0-линия), 1 стандартное отклонение выше среднего и 1 стандартное отклонение ниже среднего значения остатков... В данном случае {их пример}, две линии {среднее + 1sd и среднее - 1sd} остаются примерно параллельными линии минимума {0}, что согласуется с интерпретацией, согласно которой дисперсия остатков не изменяется как функция X. (стр. 131)
Как изменить лессовые линии?
Я знаю, как создать диаграмму рассеяния с «0-строкой»:
# First, I'll make a simple linear model and get its diagnostic stats
library(ggplot2)
data(cars)
mod <- fortify(lm(speed ~ dist, data = cars))
attach(mod)
str(mod)
# Now I want to make sure the residuals are homoscedastic
qplot (x = dist, y = .resid, data = mod) +
geom_smooth(se = FALSE) # "se = FALSE" Removes the standard error bands
Но кто-нибудь знает, как я могу использовать ggplot2
и qplot
для создания графиков, на которых будут накладываться линии 0, «среднее + 1sd» и «среднее - 1sd»? Это странный/сложный вопрос?