Estoy leyendo esta nota .
En la página 2, dice:
"¿Qué parte de la varianza en los datos se explica por un modelo de regresión dado?"
"La interpretación de la regresión se trata de la media de los coeficientes; la inferencia se trata de su varianza".
He leído sobre tales afirmaciones en numerosas ocasiones, ¿por qué nos importaría "cuánto de la varianza en los datos se explica por el modelo de regresión dado?" ... más específicamente, ¿por qué "varianza"?
Respuestas:
¿por qué nos importaría "cuánto de la varianza en los datos se explica por el modelo de regresión dado?"
Para responder esto, es útil pensar exactamente lo que significa que un cierto porcentaje de la varianza sea explicado por el modelo de regresión.
Let sea la variable de resultado. La varianza muestral habitual de la variable dependiente en un modelo de regresión es 1Y1,...,Yn Ahora vamos Y i≡ f (Xi)ser la predicción deYibasa en unos mínimos cuadrados modelo de regresión lineal con los valores de predicciónxi. Como se pruebaaquí, esta variación anterior se puede dividir como:1
En la regresión de mínimos cuadrados, el promedio de los valores pronosticados es , por lo tanto, la varianza total es igual a la diferencia cuadrática promedio entre los valores observados y los pronosticados (varianza residual) más la varianza muestral de las predicciones mismas (varianza explicada), que son solo una función de las X s . Por lo tanto, la varianza "explicada" puede considerarse como la varianza en Y i que es atribuible a la variación en X i . La proporción de la varianza en Y i que se "explica" (es decir, la proporción de variación en Y i que es atribuible a la variación en XY¯¯¯¯ X Yi Xi Yi Yi ) a veces se denomina R 2 . Xi R2
Ahora usamos dos ejemplos extremos para aclarar por qué esta descomposición de la varianza es importante:
(1) Los predictores no tienen nada que ver con las respuestas . En ese caso, el mejor predictor insesgado (en el sentido de mínimos cuadrados) para es Y i = ¯ Y . Por lo tanto, la varianza total en Y i es igual a la varianza residual y no está relacionada con la varianza en los predictores X i .Yi Yˆi=Y¯¯¯¯ Yi Xi
(2) Los predictores están perfectamente relacionados linealmente con los predictores . En ese caso, las predicciones son exactamente correcta y Y i = Y i . Por lo tanto, no hay varianza residual y toda la varianza en el resultado es la varianza en las predicciones mismas, que son solo una función de los predictores. Por lo tanto, toda la variación en el resultado se debe simplemente a la variación en los predictores X i .Yˆi=Yi Xi
Las situaciones con datos reales a menudo se ubicarán entre los dos extremos, al igual que la proporción de varianza que se puede atribuir a estas dos fuentes. El más "varianza explicada" no - es decir, la más de la variación en que es debido a la variación en X i - la mejor las predicciones Y i está realizando (es decir, cuanto menor es la "varianza residual" es), que es Otra forma de decir que el modelo de mínimos cuadrados se ajusta bien.Yi Xi Yˆi
fuente
No puedo correr con los grandes perros de las estadísticas que respondieron antes que yo, y tal vez mi pensamiento es ingenuo, pero lo veo de esta manera ...
Imagina que estás en un auto y vas por el camino y giras el volante de izquierda a derecha y presionas el acelerador y los frenos frenéticamente. Sin embargo, el automóvil se mueve suavemente, sin verse afectado por sus acciones. Inmediatamente sospecharías que no estabas en un auto real, y tal vez si miramos de cerca determinaríamos que estás viajando en Disney World. (Si estuviera en un automóvil real, estaría en peligro mortal, pero no vayamos allí).
Por otro lado, si conducía por la carretera en un automóvil y giraba la rueda ligeramente hacia la izquierda o hacia la derecha de inmediato, el automóvil se movía, al pisar los frenos se producía una fuerte desaceleración, mientras que al presionar el acelerador lo empujaba hacia atrás asiento. Podrías sospechar que estabas en un auto deportivo de alto rendimiento.
En general, probablemente experimente algo entre esos dos extremos. El grado en que sus aportes (dirección, frenos, gasolina) afectan directamente el movimiento del automóvil le da una pista sobre la calidad del automóvil. Es decir, cuanto más varianza de movimiento de su automóvil esté relacionada con sus acciones, mejor será el automóvil, y cuanto más se mueva el automóvil independientemente de su control, peor será el automóvil.
PD: No pude encontrar una analogía de Winnie The Pooh, pero lo intenté.
PPS [EDIT:] Tenga en cuenta que estoy abordando esta pregunta en particular. No se confunda al pensar que si representa el 100% de la variación, su modelo funcionará maravillosamente. También debe pensar en un ajuste excesivo, donde su modelo es tan flexible que se ajusta muy bien a los datos de entrenamiento, incluidas sus peculiaridades y rarezas aleatorias. Para usar la analogía, desea un automóvil que tenga buena dirección y frenos, pero desea que funcione bien en la carretera, no solo en la pista de prueba que está utilizando.
fuente