Comprender la forma del intervalo de confianza para la regresión polinómica (MLR)

11

Tengo dificultades para comprender la forma del intervalo de confianza de una regresión polinómica.

Aquí hay un ejemplo artificial, . La figura de la izquierda muestra el UPV (varianza de predicción sin escala) y el gráfico de la derecha muestra el intervalo de confianza y los puntos medidos (artificiales) en X = 1.5, X = 2 y X = 3. $\hat{Y}=a+b\cdot X+c\cdot X^2$

Detalles de los datos subyacentes:

El conjunto de datos consta de tres puntos de datos (1.5; 1), (2; 2.5) y (3; 2.5).
cada punto fue "medido" 10 veces y cada valor medido pertenece a . Se realizó una MLR con un modelo poinomial en los 30 puntos resultantes. $y \pm 0.5$
el intervalo de confianza se calculó con las fórmulas y (ambas fórmulas están tomadas de Myers, Montgomery, Anderson-Cook, cuarta edición de "Response Surface Methodology", páginas 407 y 34)
$U P V = \frac{V a r [\hat{y} (x_{0})]}{{\hat{σ}}^{2}} = x_{0}^{'} (X^{'} X)^{- 1} x_{0}$ $UPV=\frac{Var[\hat{y}(x_0)]}{\hat{\sigma}^2}=x_0'(X'X)^{-1}x_0$ $\hat{y} (x_{0}) - t_{α / 2, d f (e r r o r)} \sqrt{{\hat{σ}}^{2} \cdot x_{0}^{'} (X^{'} X)^{- 1} x_{0}}$ $\hat{y}(x_0) - t_{\alpha /2, df(error)}\sqrt{\hat{\sigma}^2\cdot x_0'(X'X)^{-1}x_0}$ $\leq μ_{y | x_{0}} \leq \hat{y} (x_{0}) + t_{α / 2, d f (e r r o r)} \sqrt{{\hat{σ}}^{2} \cdot x_{0}^{'} (X^{'} X)^{- 1} x_{0}} .$ $\leq \mu_{y|x_0} \leq \hat{y}(x_0) + t_{\alpha /2, df(error)}\sqrt{\hat{\sigma}^2\cdot x_0'(X'X)^{-1}x_0} .$

$t_{\alpha /2, df(error)}=2$ y . $\hat{\sigma}^2=MSE=SSE/(n-p)\sim0.075$

No estoy particularmente interesado en los valores absolutos del intervalo de confianza, sino en la forma de la UPV que solo depende de . $x_0'(X'X)^{-1}x_0$

Figura 1:

la muy alta variación prevista fuera del espacio de diseño es normal porque estamos extrapolando
pero ¿por qué la varianza es menor entre X = 1.5 y X = 2 que en los puntos medidos?
y ¿por qué la varianza se ensancha para valores superiores a X = 2 pero luego disminuye después de X = 2.3 para volver a ser más pequeña que en el punto medido en X = 3?

¿No sería lógico que la varianza sea pequeña en los puntos medidos y grande entre ellos?

Edición: mismo procedimiento pero con puntos de datos [(1.5; 1), (2.25; 2.5), (3; 2.5)] y [(1.5; 1), (2; 2.5), (2.5; 2.2), (3; 2.5)].

Figura 2:

Figura 3:

Es interesante notar que en las figuras 1 y 2, el UPV en los Puntos es exactamente igual a 1. Esto significa que el intervalo de confianza será exactamente igual a . Con un número creciente de puntos (figura 3), podemos obtener valores de UPV en los puntos medidos que son menores que 1. $\hat{y} \pm t_{\alpha /2, df(error)}\cdot \sqrt{MSE}$

regression confidence-interval John Tokka Tacos
fuente

2

¿Puedes editar tu publicación para incluir los datos con los que trabajas?

Stephan Kolassa

@StephanKolassa Traté de explicar qué datos usé. Sin embargo, la pregunta es más general y no está vinculada a un ejemplo particular.

John Tokka Tacos

Si proporciona los datos, será más fácil ilustrar una respuesta.

Stephan Kolassa

6

Las dos formas principales de comprender dicho fenómeno de regresión son algebraicas, manipulando las ecuaciones y fórmulas normales para su solución, y geométricas. El álgebra, como se ilustra en la pregunta en sí, es bueno. Pero hay varias formulaciones geométricas útiles de regresión. En este caso, la visualización de la de datos en espacio ofrece una visión de $(x,y)$ $(x,x^2,y)$ que de otra manera puede ser difícil de conseguir.

Pagamos el precio de tener que mirar objetos tridimensionales, lo cual es difícil de hacer en una pantalla estática. (Considero que las imágenes que giran sin cesar son molestas y, por lo tanto, no infligirán ninguna de ellas, aunque puedan ser útiles.) Por lo tanto, esta respuesta podría no ser atractiva para todos. Pero aquellos dispuestos a agregar la tercera dimensión con su imaginación serán recompensados. Propongo ayudarlo en este esfuerzo mediante gráficos cuidadosamente seleccionados.

Comencemos visualizando las variables independientes . En el modelo de regresión cuadrática

\begin{matrix} (1) & y_{i} = β_{0} + β_{1} (x_{i}) + β_{2} (x_{i}^{2}) + error, \end{matrix}

$y_i = \beta_0 + \beta_1 (x_i) + \beta_2 (x_i^2) + \text{error},\tag{1}$

los dos términos y pueden variar entre observaciones: son las variables independientes . Podemos trazar todos los pares ordenados como puntos en un plano con ejes correspondientes a y También es revelador trazar todos los puntos en la curva de posibles pares ordenados $(x_i)$ $(x_i^2)$ $(x_i,x_i^2)$ $x$ $x^2.$ $(t,t^2):$

Visualice las respuestas (variable dependiente) en una tercera dimensión inclinando esta figura hacia atrás y usando la dirección vertical para esa dimensión. Cada respuesta se traza como un símbolo de punto. Estos datos simulados consisten en una pila de diez respuestas para cada una de las tres ubicaciones que se muestran en la primera figura; Las elevaciones posibles de cada pila se muestran con líneas verticales grises: $(x,x^2)$

La regresión cuadrática ajusta un plano a estos puntos.

(¿Cómo sabemos eso? Porque para cualquier elección de parámetros el conjunto de puntos en el espacio que satisfacen la ecuación son el conjunto cero de la función que define un plano perpendicular al vector Este bit de geometría analítica también nos compra un soporte cuantitativo para la imagen: debido a que los parámetros utilizados en estas ilustraciones son y y ambos son grandes en comparación con este plano será casi vertical y orientado diagonalmente en el plano .) $(\beta_0,\beta_1,\beta_2),$ $(x,x^2,y)$ $(1)$ $-\beta_1(x)-\beta_2(x^2)+(1)y-\beta_0,$ $(-\beta_1,-\beta_2,1).$ $\beta_1=-55/8$ $\beta_2=15/2,$ $1,$ $(x,x^2)$

Aquí está el plano de mínimos cuadrados ajustado a estos puntos:

En el plano, que podríamos suponer que tiene una ecuación de la forma he "levantado" la curva a la curva y dibujó eso en negro. $y=f(x,x^2),$ $(t,t^2)$

t \to (t, t^{2}, f (t, t^{2}))

$t\to (t, t^2, f(t,t^2))$

Inclinemos todo más hacia atrás para que solo se muestren los ejes e , dejando que el eje caiga de forma invisible desde la pantalla: $x$ $y$ $x^2$

Puede ver cómo la curva elevada es precisamente la regresión cuadrática deseada: es el lugar geométrico de todos los pares ordenados donde es el valor ajustado cuando la variable independiente se establece en $(x,\hat y)$ $\hat y$ $x.$

La banda de confianza para esta curva ajustada representa lo que puede sucederle al ajuste cuando los puntos de datos varían aleatoriamente. Sin cambiar el punto de vista, he trazado cinco planos ajustados (y sus curvas elevadas) en cinco nuevos conjuntos de datos independientes (de los cuales solo se muestra uno):

Para ayudarlo a ver esto mejor, también hice los planos casi transparentes. Evidentemente las curvas levantadas tienden a tener intersecciones mutuas cerca de y $x \approx 1.75$ $x \approx 3.$

Echemos un vistazo a lo mismo al pasar el cursor sobre la gráfica tridimensional y mirar ligeramente hacia abajo y a lo largo del eje diagonal del plano. Para ayudarlo a ver cómo cambian los planos, también comprimí la dimensión vertical.

La cerca dorada vertical muestra todos los puntos por encima de la curva para que pueda ver más fácilmente cómo se eleva hasta los cinco planos ajustados. Conceptualmente, la banda de confianza se encuentra variando los datos, lo que hace que varíen los planos ajustados, lo que cambia las curvas elevadas, de donde trazan una envolvente de posibles valores ajustados en cada valor de $(t,t^2)$ $(x,x^2).$

Ahora creo que es posible una explicación geométrica clara. Debido a que los puntos de la forma casi se alinean en su plano, todos los planos ajustados rotarán (y se moverán un poco) alrededor de una línea común que se encuentra por encima de esos puntos. (Sea la proyección de esa línea hasta el plano : se aproximará mucho a la curva en la primera figura). Cuando esos planos varían, la cantidad en que cambia la curva elevada ( verticalmente) en cualquier ubicación dada será directamente proporcional a la distancia encuentra desde $(x_i,x_i^2)$ $\mathcal L$ $(x,x^2)$ $(x,x^2)$ $(x,x^2)$ $\mathcal L.$

Esta figura vuelve a la perspectiva plana original para mostrar relación con la curva en el plano de variables independientes. Los dos puntos en la curva más cercana a están marcados en rojo. Aquí, aproximadamente, es donde los planos ajustados tenderán a estar más cerca ya que las respuestas varían aleatoriamente. Por lo tanto, las curvas elevadas en los valores de correspondientes (alrededor de y ) tenderán a variar menos cerca de estos puntos. $\mathcal L$ $t\to(t,t^2)$ $\mathcal L$ $x$ $1.7$ $2.9$

Algebraicamente, encontrar esos "puntos nodales" es una cuestión de resolver una ecuación cuadrática: por lo tanto, existirán a lo sumo dos. Por lo tanto, podemos esperar, como una proposición general, que las bandas de confianza de un ajuste cuadrático a los datos puedan tener hasta dos lugares donde se acercan más, pero no más que eso. $(x,y)$

Este análisis se aplica conceptualmente a la regresión polinómica de mayor grado, así como a la regresión múltiple en general. Aunque no podemos realmente "ver" más de tres dimensiones, las matemáticas de la regresión lineal garantizan que la intuición derivada de las gráficas bidimensionales y tridimensionales del tipo que se muestra aquí sigue siendo precisa en las dimensiones superiores.

whuber
fuente

Gracias por esta gran respuesta! Nunca se me ocurrió que la regresión cuadrática ajusta un plano a los puntos. Estas formulaciones geométricas son realmente intuitivas y me ayudaron mucho.

John Tokka Tacos

1

Esta es una gran respuesta: debemos compilar sus mejores publicaciones y convertirlas en un libro de código abierto

Xavier Bourret Sicotte, el

1

@Xavier Gracias por las amables palabras. He estado pensando en algo así y agradezco todas las sugerencias constructivas y críticas.

whuber

1

Intuitivo

En un sentido muy intuitivo y aproximado, puede ver la curva polinómica como dos curvas lineales unidas (una ascendente y otra descendente). Para estas curvas lineales, puede recordar la forma estrecha en el centro .

Los puntos a la izquierda del pico tienen relativamente poca influencia en las predicciones a la derecha del pico, y viceversa.

Por lo tanto, puede esperar dos regiones estrechas en ambos lados del pico (donde los cambios en las pendientes de ambos lados tienen relativamente poco efecto).
La región alrededor del pico es relativamente más incierta porque un cambio en la pendiente de la curva tiene un efecto mayor en esta región. Puede dibujar muchas curvas con un gran desplazamiento del pico que aún se extiende razonablemente a través de los puntos de medición.

Ilustración

A continuación se muestra una ilustración con algunos datos diferentes, que muestra más fácilmente cómo puede surgir este patrón (se podría decir un nudo doble):

set.seed(1)
x <- c(rep(c(-6, -5, 6, 5), 5))
y <- 0.2*x^2 + rnorm(20, 0, 1)
plot(x, y, 
     ylim=c(-10,30), xlim=c(-10,10),
     pch=21, col=1, bg=1, cex=0.3)

data    = list(y=y,           x=x,                x2=x^2)
newdata = list(y=rep(0,3001), x=seq(-15,15,0.01), x2=seq(-15,15,0.01)^2  )

model <- lm(y~1+x+x2, data=data)
predictions = predict(model, newdata = newdata, interval="predict")
lines(newdata$x, predictions[,1])
lines(newdata$x, predictions[,2], lty=2)
lines(newdata$x, predictions[,3], lty=2)

Formal

^{Continuará: colocaré una sección más adelante con una explicación más formal. Uno debería poder expresar la influencia de un punto de medición específico en el intervalo de confianza en diferentes lugares . En esta expresión, uno debería ver más claramente (explícito) cómo un cambio de cierto punto de medición (aleatorio) tiene más influencia en el error en el área interpolada más lejos de los puntos de medición $x$

Actualmente no puedo captar una buena imagen del patrón ondulado de los intervalos de predicción, pero espero que esta idea aproximada aborde suficientemente el comentario de Whuber sobre no reconocer este patrón en los ajustes cuadráticos. No se trata tanto de ajustes cuadráticos y más de interpolación en general, en esos casos la precisión es menos fuerte para las predicciones cuando se expresan lejos de los puntos, independientemente de la interpolación o extrapolación. (Ciertamente, este patrón se reduce más cuando se agregan más puntos de medición, diferentes ) $x$}

Sexto empírico
fuente

1

Me cuesta creer esta caracterización o cualquiera de sus conclusiones, porque estoy bastante seguro de que la regresión cuadrática simplemente no se comporta de esta manera. ¿Podrías convencerme dándome alguna justificación?

whuber

1

Supongo que depende de la posición de los puntos. En el ejemplo, los puntos están a ambos lados del pico. Entonces podría considerar la posición del pico como una especie de extrapolación. Haré un caso de ejemplo más extremo más adelante. (También me pregunto cómo se realiza la regresión, pero imagino que el error en los coeficientes se considera correlacionado o de lo contrario no se obtiene este patrón)

Sextus Empiricus

(x_{i}, x_{i}^{2})

$(x_i, x_i^2)$

x

$x$

x^{2}

$x^2$

Comprender la forma del intervalo de confianza para la regresión polinómica (MLR)

Respuestas:

Intuitivo

Ilustración

Formal