Comprender la forma y el cálculo de las bandas de confianza en regresión lineal

33

Estoy tratando de entender el origen de la forma curva de las bandas de confianza asociadas con una regresión lineal OLS y cómo se relaciona con los intervalos de confianza de los parámetros de regresión (pendiente e intercepción), por ejemplo (usando R):

require(visreg)
fit <- lm(Ozone ~ Solar.R,data=airquality)
visreg(fit)

ingrese la descripción de la imagen aquí

Parece que la banda está relacionada con los límites de las líneas calculadas con la intersección del 2.5% y la pendiente del 97.5%, así como con la intersección del 97.5% y la pendiente del 2.5% (aunque no del todo):

xnew <- seq(0,400)
int <- confint(fit)
lines(xnew, (int[1,2]+int[2,1]*xnew))
lines(xnew, (int[1,1]+int[2,2]*xnew))

ingrese la descripción de la imagen aquí

Lo que no entiendo son dos cosas:

  1. ¿Qué pasa con la combinación de 2.5% de pendiente y 2.5% de intercepción, así como 97.5% de pendiente y 97.5% de intercepción? Estos dan líneas que están claramente fuera de la banda trazada arriba. Tal vez no entiendo el significado de un intervalo de confianza, pero si en el 95% de los casos mis estimaciones están dentro del intervalo de confianza, ¿esto parece un posible resultado?
  2. ¿Qué determina la distancia mínima entre el límite superior y el inferior (es decir, cerca del punto donde las dos líneas agregadas arriba interceptan)?

Supongo que ambas preguntas surgen porque no sé / entiendo cómo se calculan realmente estas bandas.

¿Cómo puedo calcular los límites superior e inferior utilizando los intervalos de confianza de los parámetros de regresión (sin depender de predic () o una función similar, es decir, a mano)? Traté de descifrar la función predict.lm en R, pero la codificación me supera. Agradecería cualquier sugerencia sobre literatura relevante o explicaciones adecuadas para principiantes en estadísticas.

Gracias.

David
fuente
44
Tienes dos buenas respuestas a continuación. Si desea obtener más información, puede ayudarlo a leer mi respuesta aquí: Intervalo de predicción de regresión lineal , que corresponde a intervalos de predicción, pero la idea es muy similar.
gung - Restablece a Monica
2
Hay una explicación intuitiva detallada dada en esta publicación: Forma del intervalo de confianza para los valores pronosticados en regresión lineal
Glen_b -Reinstate Monica
TA por las respuestas útiles y los excelentes enlaces.
David

Respuestas:

19

El error estándar de la línea de regresión en el punto (es decir, ) se calcula a mano ( ¡Yech! ) Usando:XsY^X

sY^X=sY|X1n+(XX¯)2i=1n(XiX¯)2 ,

donde el error estándar de la estimación (es decir, ) se calcula a mano (¡ Doble yech! ) usando:sY|X

sY|X=i=1n(YiY^)2n2 .

La banda de confianza sobre la línea de regresión se obtiene como .Y^±tν=n2,α/2sY^

Tenga en cuenta que la banda de confianza sobre la línea de regresión no es la misma bestia que la banda de predicción sobre la línea de regresión (hay más incertidumbre al predecir dado un valor de que al estimar la línea de regresión). Y, como está luchando por comprender, los intervalos de confianza sobre la intersección y la pendiente son otras cantidades.XYX

Además, no comprende los intervalos de confianza: "si en el 95% de los casos mis estimaciones se encuentran dentro del intervalo de confianza, ¿esto parece un posible resultado?" Los intervalos de confianza no 'contienen el 95% de las estimaciones', más bien para cada muestra separada (producida por el mismo diseño de estudio), el 95% de los intervalos de confianza del 95% (calculados por separado para cada muestra) contendrían el 'parámetro de población real' (es decir, la pendiente verdadera, la intersección verdadera, etc.) que y están estimando. alphaβ^α^

Alexis
fuente
1
¿Existe un libro de texto que explique de dónde provienen estas fórmulas?
Michael Goerz el
1
@MichaelGoerz Cualquier libro introductorio de estadística, bioestadística, econometría, etc. que cubra la regresión lineal de mínimos cuadrados ordinarios debería tener.
Alexis
Tengo a Wasserman - All of Statistics, James et al - An Introduction to Statistical Learning, y Hastie et al. - Los elementos del aprendizaje estadístico. No he podido encontrar las ecuaciones para las bandas de confianza de regresión lineal en ninguna de ellas. ¿Tiene un número de capítulo / ecuación para alguno de estos u otro libro ampliamente disponible?
Michael Goerz
2
Ninguno de los libros que mencionas son del tipo de libros que Alexis está discutiendo. El libro de Fox sobre regresión aplicada lo tiene si no recuerdo mal.
Glen_b -Reinstala a Mónica el
1
@MichaelGoerz Al igual que Pagano, M. y Gauvreau, K. (2000). Principios de bioestadística . Duxbury Press, Pacific Grove, CA, 2ª edición y Glantz, SA (2011). cartilla de bioestadística . McGraw-Hill Medical, Nueva York, NY, 7ª edición, aunque no son textos específicos de regresión.
Alexis
16

Buena pregunta. Es importante comprender estos conceptos y no son sencillos.

Las bandas de confianza del 95% que ve alrededor de la línea de regresión son generadas por los intervalos de confianza del 95% de que el valor verdadero para cae dentro de ese rango para cada x individual. Entonces, tome un corte vertical, digamos en x = 50. La regresión nos dice que en x = 50 es aproximadamente 25. El cálculo del intervalo de confianza nos dice que estamos 95% seguros de que el valor verdadero para en ese punto está dentro del área gris de la gráfica (aproximadamente 15 y 35 para la gráfica de arriba).ˉ y ˉ yy¯y¯y¯

Cuando combinamos todos los intervalos de confianza, para cada x posible, nos da las bandas grises que ves en la salida.

Lo que esto significa funcionalmente es que estamos 95% seguros de que la verdadera línea de regresión se encuentra en algún lugar de esa zona gris.

Debido a que las bandas de confianza se calculan utilizando los intervalos de confianza del 95% para cada punto individual, está muy relacionado con el IC del 95% para la intercepción. De hecho, en x = 0 los bordes de la zona gris coincidirán exactamente con el IC del 95% para la intercepción, porque así es como hemos generado las bandas de confianza. Es por eso que las líneas que ha agregado arriba golpean el borde de la banda gris hacia la izquierda.

Sin embargo, la pendiente es un poco diferente. Contribuye a los límites, como has visto anteriormente, pero la pendiente y la intersección no son separables en una regresión lineal. Entonces, realmente no se puede decir "bueno, ¿y si la intersección estuviera en el mínimo del rango CI y la pendiente también estuviera en el mínimo?" Esta línea generaría puntos que están muy fuera de nuestro IC del 95% para muchas x. Esto significa que estamos 95% seguros de que esa no es nuestra verdadera línea de regresión.

x¯sy^Xx = ˉ x(X-X¯)X=X¯

Aquí hay un powerpoint decente que puede ayudarte a visualizar algunas de estas cosas: http://www.stat.duke.edu/~tjl13/s101/slides/unit6lec3H.pdf

Duncan
fuente
2
Creo que lo arreglé, reemplacé los yhats por ybars. ¿Es eso más correcto? Siempre lo arruino.
Duncan
Ejército de reserva. Una cosa que no me queda clara es cómo hacer consistentes las siguientes dos afirmaciones: "Lo que esto significa funcionalmente es que estamos 95% seguros de que la verdadera línea de regresión se encuentra en algún lugar de esa zona gris". vs "[...] los intervalos de confianza sobre la intersección y la pendiente son otras cantidades". Si la primera afirmación es correcta, ¿debe haber alguna relación (¿matemática?) Entre los IC de intercepción y pendiente y la banda graficada anteriormente? Supongo que esto se relaciona con una parte de mi pregunta: ¿Cómo puedo calcular (si es posible) la banda anterior usando los IC de pendiente e intercepción?
David
1
X¯
Buena publicación comprensible y un buen enlace! +1
theforestecologist