Forma del intervalo de confianza para valores predichos en regresión lineal

69

He notado que el intervalo de confianza para los valores pronosticados en una regresión lineal tiende a ser estrecho alrededor de la media del predictor y engordar alrededor de los valores mínimos y máximos del predictor. Esto se puede ver en las gráficas de estas 4 regresiones lineales:

ingrese la descripción de la imagen aquí

Inicialmente pensé que esto se debía a que la mayoría de los valores de los predictores se concentraban alrededor de la media del predictor. Sin embargo, luego noté que la mitad estrecha del intervalo de confianza ocurriría incluso si muchos valores de se concentraran alrededor de los extremos del predictor, como en la regresión lineal inferior izquierda, que muchos valores del predictor se concentran alrededor del mínimo de El predictor.

¿Alguien puede explicar por qué los intervalos de confianza para los valores predichos en una regresión lineal tienden a ser estrechos en el medio y gordos en los extremos?

luciano
fuente

Respuestas:

86

Lo discutiré en términos intuitivos.

Tanto los intervalos de confianza como los intervalos de predicción en la regresión tienen en cuenta el hecho de que la intersección y la pendiente son inciertas: usted estima los valores de los datos, pero los valores de la población pueden ser diferentes (si toma una nueva muestra, obtendrá diferentes estimaciones valores).

Pasará una línea de regresión , y es mejor centrar la discusión sobre los cambios en el ajuste alrededor de ese punto, es decir, pensar en la línea (en esta formulación, ).(x¯,y¯)y=a+b(xx¯)a^=y¯

Si la línea pasara por ese punto , pero la pendiente fuera un poco más alta o más baja (es decir, si la altura de la línea en la media fuera fija pero la pendiente fuera un poco diferente), ¿qué sería eso? ¿parece?(x¯,y¯)

Vería que la nueva línea se alejaría más de la línea actual cerca de los extremos que cerca del medio, formando una especie de X inclinada que se cruzó en la media (como cada una de las líneas púrpuras a continuación lo hacen con respecto a la línea roja ; las líneas moradas representan la pendiente estimada dos errores estándar de la pendiente).±

ingrese la descripción de la imagen aquí

Si dibujó una colección de tales líneas con la pendiente que varía un poco de su estimación, vería la distribución de los valores pronosticados cerca de los extremos 'abanicos' (imagine la región entre las dos líneas moradas sombreadas en gris, por ejemplo, porque tomamos muestras de nuevo y dibujamos muchas de esas pendientes cerca de la estimada; podemos darnos una idea de esto mediante el arranque de una línea a través del punto ( )). Aquí hay un ejemplo usando 2000 resamples con un bootstrap paramétrico:x¯,y¯

ingrese la descripción de la imagen aquí

Si, en cambio, tiene en cuenta la incertidumbre en la constante (hacer que la línea pase cerca pero no del todo ), eso mueve la línea hacia arriba y hacia abajo, por lo que los intervalos para la media en cualquier serán sentarse por encima y por debajo de la línea ajustada.(x¯,y¯)x

ingrese la descripción de la imagen aquí

(Aquí las líneas moradas son dos errores estándar del término constante a ambos lados de la línea estimada).±

Cuando haces las dos cosas a la vez (la línea puede estar un poco más arriba o más abajo, y la pendiente puede ser un poco más pronunciada o menos profunda), entonces obtienes cierta extensión en la media, , debido a la incertidumbre en el constante, y obtienes un abanico adicional debido a la incertidumbre de la pendiente, entre ellos produciendo la forma hiperbólica característica de tus parcelas.x¯

Esa es la intuición.


Ahora, si lo desea, podemos considerar un poco de álgebra (pero no es esencial):

En realidad, es la raíz cuadrada de la suma de los cuadrados de esos dos efectos; puede verlo en la fórmula del intervalo de confianza. Vamos a construir las piezas:

El error estándar de conocido es (recuerda aquí es el valor esperado de en la media de , no la intersección de costumbre, es sólo un error estándar de la media). Ese es el error estándar de la posición de la línea en la media ( ).abσ/nayxx¯

El error estándar con conocido es . El efecto de la incertidumbre en la pendiente en algún valor se multiplica por qué tan lejos está de la media ( ) (porque el cambio en el nivel es el cambio en la pendiente por la distancia que se mueve), dando .baσ/i=1n(xix¯)2xxx¯(xx¯)σ/i=1n(xix¯)2

Ahora bien, el efecto general es la raíz cuadrada de la suma de los cuadrados de las dos cosas (¿por qué? Porque varianzas de las cosas no correlacionados se suman, y si usted escribe su línea en el forma , las estimaciones de y no están correlacionados Así que el error estándar global es la raíz cuadrada de la varianza total, y la varianza es la suma de las varianzas de los componentes. - es decir, tenemosy=a+b(xx¯)ab

(σ/n)2+[(xx¯)σ/i=1n(xix¯)2]2

Una pequeña manipulación simple da el término habitual para el error estándar de la estimación del valor medio en :x

σ1n+(xx¯)2i=1n(xix¯)2

Si dibujas eso en función de , verás que forma una curva (parece una sonrisa) con un mínimo en , que se hace más grande a medida que te mueves. Eso es lo que se agrega / resta de la línea ajustada (bueno, es un múltiplo para obtener el nivel de confianza deseado).xx¯

[Con intervalos de predicción, también existe la variación en la posición debido a la variabilidad del proceso; esto agrega otro término que desplaza los límites hacia arriba y hacia abajo, haciendo una extensión mucho más amplia, y debido a que ese término generalmente domina la suma debajo de la raíz cuadrada, la curvatura es mucho menos pronunciada.]

Glen_b
fuente
Gracias Glen_b, eso es muy intuitivo. No se me había pasado por la cabeza lo que representa el intervalo de confianza.
luciano
1

La respuesta aceptada trae de hecho la intuición necesaria. Solo se pierde la visualización de combinar incertidumbres lineales y angulares, lo que se remite muy bien a las tramas de la pregunta. Así que aquí va. Llamemos a'y b'las incertidumbres de a, y b, respectivamente, las cantidades comúnmente devueltas por cualquier paquete de estadísticas populares. Luego tenemos, además del mejor ajuste a*x + b, cuatro líneas posibles para dibujar (en este caso de 1 covariable x):

  • (a+a')*x + b+b'
  • (a-a')*x + b-b'
  • (a+a')*x + b-b'
  • (a-a')*x + b+b'

Estas son las cuatro líneas coloreadas en el gráfico a continuación. La línea gruesa negra en el medio representa el mejor ajuste sin incertidumbres. Entonces, para dibujar los sombreados "hiperbólicos", uno debe tomar los valores máximos y mínimos de estas cuatro líneas combinadas, que en realidad son cuatro segmentos de línea, sin curvas allí (me pregunto cuán exactamente estos trazados de cerca dibujan la curva, no parece cualquier exacto para mí).

Espero que esto agregue algo a la ya buena respuesta de @Glen_b.

ingrese la descripción de la imagen aquí

ouranos
fuente