¿Qué significa este desenfoque alrededor de la línea en este gráfico?

8

Estaba jugando con ggplot2 usando los siguientes comandos para ajustar una línea a mis datos:

ggplot(data=datNorm, aes(x=Num, y=Val)) + geom_point() + 
stat_summary(fun.data = "mean_cl_boot", geom="errorbar", colour="red", width=0.8) + 
stat_sum_single(median) + 
stat_sum_single(mean, colour="blue") + 
geom_smooth(level = 0.95, aes(group=1), method="lm")

Los puntos rojos son valores medios, el azul son las medias y las líneas rojas verticales muestran las barras de error. Como paso final, solía geom_smoothajustar una línea con suavizado lineal, así que solía method="lm". Junto con la línea, también se generó una sombra opaca alrededor de la línea. Mientras descubrí cómo eliminarlo de la documentación, la opción que usé para desactivarlo es:

se: display confidence interval around smooth? 

¿Puede alguien decirme lo que se supone que debo entender por la sombra alrededor de la línea? Específicamente, estoy tratando de entender cómo interpretarlo. Tal vez debe ser una bondad de ajuste para la línea, pero cualquier información adicional podría ser muy útil para mí. ¿Alguna sugerencia?

ingrese la descripción de la imagen aquí

Leyenda
fuente

Respuestas:

6

Sospecho que significa muy poco en tu figura real; Usted ha dibujado una forma de diagrama de rayas / gráfico. Pero como no tenemos los datos o el ejemplo reproducible, solo describiré lo que estas líneas / regiones muestran en general.

En general, la línea es el modelo lineal ajustado que describe la relación La banda sombreada es un intervalo de confianza puntual del 95% en los valores ajustados (la línea ) Este intervalo de confianza contiene la verdadera línea de regresión de población con 0.95 de probabilidad. O, en otras palabras, hay un 95% de confianza en que la verdadera línea de regresión se encuentra dentro de la región sombreada. Nos muestra la incertidumbre inherente a nuestra estimación de la verdadera relación entre su respuesta y la variable predictora.

val^=β0+β1Num
Gavin Simpson
fuente
Gracias por su respuesta y tiempo. Pasaré un tiempo entendiendo tu primer comentario sobre por qué significa poco en mi tabla. En lugar de dibujar un diagrama de barras con la media, dibujé un gráfico de tiras para ver cuántos puntos se usaron también. Pero por favor corrígeme si me equivoco. Mi última pregunta sería si existe una relación entre este intervalo de confianza del 95% y el intervalo de confianza del 95% que muestran las barras de error. Específicamente, ¿qué significa que la línea ajustada esté por encima o por debajo de las barras de error? ¿O son totalmente independientes y deben interpretarse por separado?
Leyenda
Si la variante x es categórica, puede que no tenga sentido tratarla como un término lineal de 1 grado de libertad, que es cómo se ha tratado en el cálculo de la línea ajustada. Además, sus datos no parecen exhibir el supuesto de varianza constante para los residuos del modelo. El diagrama de tira no es el problema, es si la regresión de estos datos tiene sentido. La línea ajustada estará cerca (o incluso puede ser, alguien puede corregirme) una línea de mejor ajuste a través de los medios grupales.
Gavin Simpson
Muchas gracias por tu perspicacia. Leeré más sobre el supuesto de varianza constante para los residuos.
Leyenda
2
Hmmm No estoy completamente seguro de que su explicación sea correcta: el valor predeterminado es dibujar un intervalo de confianza de 95% en puntos . No creo que sea lo mismo que decir que hay un 95% de posibilidades de que la verdadera línea de regresión se encuentre dentro de la región sombreada.
hadley
@hadley golpea la cabeza sí, eso sería un intervalo de confianza simultáneo. Actualizará.
Gavin Simpson