¿Por qué hay regresión sobre la varianza?

19

Estoy leyendo esta nota .

En la página 2, dice:

"¿Qué parte de la varianza en los datos se explica por un modelo de regresión dado?"

"La interpretación de la regresión se trata de la media de los coeficientes; la inferencia se trata de su varianza".

He leído sobre tales afirmaciones en numerosas ocasiones, ¿por qué nos importaría "cuánto de la varianza en los datos se explica por el modelo de regresión dado?" ... más específicamente, ¿por qué "varianza"?

Luna
fuente
"[V] ariance" en lugar de qué, la desviación estándar? ¿Qué es lo que crees que debería importarnos en la regresión? ¿Cuáles son sus objetivos típicos en la construcción de un modelo de regresión?
gung - Restablece a Monica
La varianza tiene unidades diferentes a la cantidad que se está modelando, por lo que siempre me ha resultado difícil interpretar la "proporción de varianza explicada por el modelo".
vuela el

Respuestas:

18

¿por qué nos importaría "cuánto de la varianza en los datos se explica por el modelo de regresión dado?"

Para responder esto, es útil pensar exactamente lo que significa que un cierto porcentaje de la varianza sea explicado por el modelo de regresión.

Let sea ​​la variable de resultado. La varianza muestral habitual de la variable dependiente en un modelo de regresión es 1Y1,...,YnAhora vamos Y i f (Xi)ser la predicción deYibasa en unos mínimos cuadrados modelo de regresión lineal con los valores de predicciónxi. Como se pruebaaquí, esta variación anterior se puede dividir como:1

1n1i=1n(YiY¯)2
Y^if^(Xi)YiXi
1n1i=1n(YiY¯)2=1n1i=1n(YiY^i)2residual variance+1n1i=1n(Y^iY¯)2explained variance

En la regresión de mínimos cuadrados, el promedio de los valores pronosticados es , por lo tanto, la varianza total es igual a la diferencia cuadrática promedio entre los valores observados y los pronosticados (varianza residual) más la varianza muestral de las predicciones mismas (varianza explicada), que son solo una función de las X s . Por lo tanto, la varianza "explicada" puede considerarse como la varianza en Y i que es atribuible a la variación en X i . La proporción de la varianza en Y i que se "explica" (es decir, la proporción de variación en Y i que es atribuible a la variación en XY¯XYiXiYiYi ) a veces se denomina R 2 . XiR2

Ahora usamos dos ejemplos extremos para aclarar por qué esta descomposición de la varianza es importante:

  • (1) Los predictores no tienen nada que ver con las respuestas . En ese caso, el mejor predictor insesgado (en el sentido de mínimos cuadrados) para es Y i = ¯ Y . Por lo tanto, la varianza total en Y i es igual a la varianza residual y no está relacionada con la varianza en los predictores X i .YiY^i=Y¯YiXi

  • (2) Los predictores están perfectamente relacionados linealmente con los predictores . En ese caso, las predicciones son exactamente correcta y Y i = Y i . Por lo tanto, no hay varianza residual y toda la varianza en el resultado es la varianza en las predicciones mismas, que son solo una función de los predictores. Por lo tanto, toda la variación en el resultado se debe simplemente a la variación en los predictores X i .Y^i=YiXi

Las situaciones con datos reales a menudo se ubicarán entre los dos extremos, al igual que la proporción de varianza que se puede atribuir a estas dos fuentes. El más "varianza explicada" no - es decir, la más de la variación en que es debido a la variación en X i - la mejor las predicciones Y i está realizando (es decir, cuanto menor es la "varianza residual" es), que es Otra forma de decir que el modelo de mínimos cuadrados se ajusta bien. YiXiY^i

Macro
fuente
Esta es como mi respuesta, pero quizás un poco mejor explicada. También veo una posible crítica que podría haberse mencionado es que debería haber escrito la variación relativa a la media de Y.
Michael R. Chernick
1
@MichaelChernick, sí, pero en la regresión de mínimos cuadrados (de lo que creo que está hablando el OP en función de las diapositivas vinculadas), la media de los valores pronosticados es igual a la media de las s, por lo que puede llamarlo la varianza muestral de predicciones Y
Macro
Hice la edición de mi respuesta porque Yb es necesario para que la descomposición de la varianza funcione correctamente.
Michael R. Chernick
Sí, estaba claro para mí que se refería a la regresión de mínimos cuadrados. Aún así, mucho de lo que escribiste es solo repetir lo que dije de manera ligeramente diferente. Todavía te di un +1.
Michael R. Chernick
1
Macro, mi punto era que se produce este descomposición sólo si y por lo que la "regresión" inherentemente implica una proyección ortogonal sobre un espacio que contiene el vector constante. Tenga en cuenta que podemos "romper" fácilmente esta descomposición simplemente eliminando el vector constante de nuestro modelo, lo que parece estar en conflicto con su comentario más reciente. yy^,y^y¯1=0
cardenal
9

No puedo correr con los grandes perros de las estadísticas que respondieron antes que yo, y tal vez mi pensamiento es ingenuo, pero lo veo de esta manera ...

Imagina que estás en un auto y vas por el camino y giras el volante de izquierda a derecha y presionas el acelerador y los frenos frenéticamente. Sin embargo, el automóvil se mueve suavemente, sin verse afectado por sus acciones. Inmediatamente sospecharías que no estabas en un auto real, y tal vez si miramos de cerca determinaríamos que estás viajando en Disney World. (Si estuviera en un automóvil real, estaría en peligro mortal, pero no vayamos allí).

Por otro lado, si conducía por la carretera en un automóvil y giraba la rueda ligeramente hacia la izquierda o hacia la derecha de inmediato, el automóvil se movía, al pisar los frenos se producía una fuerte desaceleración, mientras que al presionar el acelerador lo empujaba hacia atrás asiento. Podrías sospechar que estabas en un auto deportivo de alto rendimiento.

En general, probablemente experimente algo entre esos dos extremos. El grado en que sus aportes (dirección, frenos, gasolina) afectan directamente el movimiento del automóvil le da una pista sobre la calidad del automóvil. Es decir, cuanto más varianza de movimiento de su automóvil esté relacionada con sus acciones, mejor será el automóvil, y cuanto más se mueva el automóvil independientemente de su control, peor será el automóvil.

yx1,x2,...,xiyy

yxixi yxiyxiy

PD: No pude encontrar una analogía de Winnie The Pooh, pero lo intenté.

PPS [EDIT:] Tenga en cuenta que estoy abordando esta pregunta en particular. No se confunda al pensar que si representa el 100% de la variación, su modelo funcionará maravillosamente. También debe pensar en un ajuste excesivo, donde su modelo es tan flexible que se ajusta muy bien a los datos de entrenamiento, incluidas sus peculiaridades y rarezas aleatorias. Para usar la analogía, desea un automóvil que tenga buena dirección y frenos, pero desea que funcione bien en la carretera, no solo en la pista de prueba que está utilizando.

Wayne
fuente