Estoy tratando de entender el origen de la forma curva de las bandas de confianza asociadas con una regresión lineal OLS y cómo se relaciona con los intervalos de confianza de los parámetros de regresión (pendiente e intercepción), por ejemplo (usando R):
require(visreg)
fit <- lm(Ozone ~ Solar.R,data=airquality)
visreg(fit)
Parece que la banda está relacionada con los límites de las líneas calculadas con la intersección del 2.5% y la pendiente del 97.5%, así como con la intersección del 97.5% y la pendiente del 2.5% (aunque no del todo):
xnew <- seq(0,400)
int <- confint(fit)
lines(xnew, (int[1,2]+int[2,1]*xnew))
lines(xnew, (int[1,1]+int[2,2]*xnew))
Lo que no entiendo son dos cosas:
- ¿Qué pasa con la combinación de 2.5% de pendiente y 2.5% de intercepción, así como 97.5% de pendiente y 97.5% de intercepción? Estos dan líneas que están claramente fuera de la banda trazada arriba. Tal vez no entiendo el significado de un intervalo de confianza, pero si en el 95% de los casos mis estimaciones están dentro del intervalo de confianza, ¿esto parece un posible resultado?
- ¿Qué determina la distancia mínima entre el límite superior y el inferior (es decir, cerca del punto donde las dos líneas agregadas arriba interceptan)?
Supongo que ambas preguntas surgen porque no sé / entiendo cómo se calculan realmente estas bandas.
¿Cómo puedo calcular los límites superior e inferior utilizando los intervalos de confianza de los parámetros de regresión (sin depender de predic () o una función similar, es decir, a mano)? Traté de descifrar la función predict.lm en R, pero la codificación me supera. Agradecería cualquier sugerencia sobre literatura relevante o explicaciones adecuadas para principiantes en estadísticas.
Gracias.
Respuestas:
El error estándar de la línea de regresión en el punto (es decir, ) se calcula a mano ( ¡Yech! ) Usando:X sY^X
donde el error estándar de la estimación (es decir, ) se calcula a mano (¡ Doble yech! ) usando:sYEl | X
La banda de confianza sobre la línea de regresión se obtiene como .Y^± tν= n - 2 , α / 2sY^
Tenga en cuenta que la banda de confianza sobre la línea de regresión no es la misma bestia que la banda de predicción sobre la línea de regresión (hay más incertidumbre al predecir dado un valor de que al estimar la línea de regresión). Y, como está luchando por comprender, los intervalos de confianza sobre la intersección y la pendiente son otras cantidades.XY X
Además, no comprende los intervalos de confianza: "si en el 95% de los casos mis estimaciones se encuentran dentro del intervalo de confianza, ¿esto parece un posible resultado?" Los intervalos de confianza no 'contienen el 95% de las estimaciones', más bien para cada muestra separada (producida por el mismo diseño de estudio), el 95% de los intervalos de confianza del 95% (calculados por separado para cada muestra) contendrían el 'parámetro de población real' (es decir, la pendiente verdadera, la intersección verdadera, etc.) que y están estimando. alphaβ^ α^
fuente
Buena pregunta. Es importante comprender estos conceptos y no son sencillos.
Las bandas de confianza del 95% que ve alrededor de la línea de regresión son generadas por los intervalos de confianza del 95% de que el valor verdadero para cae dentro de ese rango para cada x individual. Entonces, tome un corte vertical, digamos en x = 50. La regresión nos dice que en x = 50 es aproximadamente 25. El cálculo del intervalo de confianza nos dice que estamos 95% seguros de que el valor verdadero para en ese punto está dentro del área gris de la gráfica (aproximadamente 15 y 35 para la gráfica de arriba).ˉ y ˉ yy¯ y¯ y¯
Cuando combinamos todos los intervalos de confianza, para cada x posible, nos da las bandas grises que ves en la salida.
Lo que esto significa funcionalmente es que estamos 95% seguros de que la verdadera línea de regresión se encuentra en algún lugar de esa zona gris.
Debido a que las bandas de confianza se calculan utilizando los intervalos de confianza del 95% para cada punto individual, está muy relacionado con el IC del 95% para la intercepción. De hecho, en x = 0 los bordes de la zona gris coincidirán exactamente con el IC del 95% para la intercepción, porque así es como hemos generado las bandas de confianza. Es por eso que las líneas que ha agregado arriba golpean el borde de la banda gris hacia la izquierda.
Sin embargo, la pendiente es un poco diferente. Contribuye a los límites, como has visto anteriormente, pero la pendiente y la intersección no son separables en una regresión lineal. Entonces, realmente no se puede decir "bueno, ¿y si la intersección estuviera en el mínimo del rango CI y la pendiente también estuviera en el mínimo?" Esta línea generaría puntos que están muy fuera de nuestro IC del 95% para muchas x. Esto significa que estamos 95% seguros de que esa no es nuestra verdadera línea de regresión.
Aquí hay un powerpoint decente que puede ayudarte a visualizar algunas de estas cosas: http://www.stat.duke.edu/~tjl13/s101/slides/unit6lec3H.pdf
fuente