Lógica detrás de la prueba ANOVA F en regresión lineal simple

En el caso más simple, cuando tiene un solo predictor (regresión simple), digamos , la prueba le dice si incluir explica una mayor parte de la varianza observada en en comparación con el modelo nulo (solo intercepción). La idea es entonces probar si la varianza explicada agregada (varianza total, TSS, menos la varianza residual, RSS) es lo suficientemente grande como para ser considerada como una "cantidad significativa". Aquí estamos comparando un modelo con un predictor, o variable explicativa, con una línea de base que es solo "ruido" (nada excepto la gran media). $X_1$ $F$ $X_1$ $Y$

Del mismo modo, puede calcular una estadística en una configuración de regresión múltiple: en este caso, equivale a una prueba de todos los predictores incluidos en el modelo, lo que en el marco HT significa que nos preguntamos si alguno de ellos es útil para predecir la respuesta variable. Esta es la razón por la que puede encontrar situaciones en las que la prueba para todo el modelo es significativa, mientras que algunas de las pruebas o asociadas a cada coeficiente de regresión no lo son. $F$ $F$ $t$ $z$

La estadística parece a $F$

F = \frac{(TSS - RSS) / (p - 1)}{RSS / (n - p)},

$F = \frac{(\text{TSS}-\text{RSS})/(p-1)}{\text{RSS}/(n-p)},$

donde es el número de parámetros del modelo el número de observaciones. Esta cantidad debe referirse a una distribución para un valor crítico o . También se aplica al modelo de regresión simple, y obviamente tiene cierta analogía con el marco ANOVA clásico. $p$ $n$ $F_{p-1,n-p}$ $p$

Nota al margen. Cuando tiene más de un predictor, entonces puede preguntarse si considerar solo un subconjunto de esos predictores "reduce" la calidad del ajuste del modelo. Esto corresponde a una situación en la que consideramos modelos anidados . Esta es exactamente la misma situación que las anteriores, donde comparamos un modelo de regresión dado con un modelo nulo (no se incluyen predictores). Para evaluar la reducción en la varianza explicada, podemos comparar la suma residual de cuadrados (RSS) de ambos modelos (es decir, lo que queda sin explicar una vez que se tiene en cuenta el efecto de los predictores presentes en el modelo). Deje que y denoten el modelo base (con $\mathcal{M}_0$ $\mathcal{M}_1$ $p$ parámetros) y un modelo con un predictor adicional ( parámetros), entonces si es pequeño, consideraríamos que el modelo más pequeño funciona tan bien como el más grande. Una buena estadística para usar sería la relación de tales SS, , ponderado por sus grados de libertad ( para el numerador y para el denominador). Como ya se dijo, se puede demostrar que esta cantidad sigue una distribución (o Fisher-Snedecor) con grados de libertad y . Si la observada $q=p+1$ $\text{RSS}_{\mathcal{M}_1}-\text{RSS}_{\mathcal{M}_0}$ $(\text{RSS}_{\mathcal{M}_1}-\text{RSS}_{\mathcal{M}_0})/\text{RSS}_{\mathcal{M}_0}$ $p-q$ $n-p$ $F$ $p-q$ $n-p$ $F$ es mayor que el cuantil correspondiente en un dado (típicamente, ), entonces concluiríamos que el modelo más grande hace un "mejor trabajo". (¡Esto de ninguna manera implica que el modelo sea correcto, desde un punto de vista práctico!) $F$ $\alpha$ $\alpha=0.05$

Una generalización de la idea anterior es la prueba de razón de probabilidad .

Si está utilizando R, puede jugar con los conceptos anteriores como este:

df <- transform(X <- as.data.frame(replicate(2, rnorm(100))), 
                                   y = V1+V2+rnorm(100))
## simple regression
anova(lm(y ~ V1, df))         # "ANOVA view"
summary(lm(y ~ V1, df))       # "Regression view"
## multiple regression
summary(lm0 <- lm(y ~ ., df))
lm1 <- update(lm0, . ~ . -V2) # reduced model
anova(lm1, lm0)               # test of V2

chl
fuente

@chl - En primer lugar, ¡buena respuesta! Esto puede justificar su propia pregunta, así que avíseme ... pero las descripciones que he leído sobre las tablas ANOVA para los modelos de regresión generalmente se refieren a tres filas en la tabla: predictores, errores y total. Sin embargo, la anova()función en R devuelve una fila individual para cada predictor en el modelo. Por ejemplo, anova(lm0)anterior devuelve una fila para V1, V2y Residuals(y no total). Como tal, obtenemos dos estadísticas F * para este modelo. ¿Cómo cambia esto la interpretación de la estadística F * informada en la tabla ANOVA?

Chase

@Chase Sí, la tabla ANOVA que tengo en mente también está organizada de esta manera. Siéntase libre de hacer la pregunta; Me encantaría saber lo que otros usuarios piensan de eso. Generalmente uso anova()para la comparación GLM. Cuando se aplica a un objeto lmu aov, muestra efectos separados (SS) para cada término en el modelo y no muestra TSS. (Solía aplicar esto al revés, es decir, después de ajustar un ANOVA aov(), puedo usarlo summary.lm()para tener una idea de los contrastes de tratamiento). Sin embargo, hay problemas sutiles entre summary.lm()y summary.aov(), especialmente relacionados con el ajuste secuencial.

chl

@Chase acabo redescubierto esta muy agradable respuesta de @Gavin acerca de la interpretación de película de R (salida) .

chl

@chl - Un poco tonto de mi parte. Es una buena respuesta sobre la intuición detrás de la prueba F y cómo "va en la dirección correcta". Pero no explica la lógica de por qué debería elegir esta prueba en particular. Por ejemplo, ¿por qué no deberíamos usar la estadística PRENSA? Usted insinuado la razón de verosimilitud - lo que lo hace tener una justificación lógica - de ahí su aplicabilidad a todos los modelos, a diferencia de la prueba F.

probabilidadislogica

@probabilityislogic Buen punto. Originalmente, mi idea era mostrar la lógica detrás de la comparación de modelos, de los cuales el modelo de regresión simple es solo un caso particular (comparar con el modelo "muy nulo"), que también motiva la nota rápida sobre LRT. Estoy de acuerdo con usted, si trabajamos en la línea de un enfoque puro de Neyman-Pearson para HT. Sin embargo, pensaba principalmente en términos de la Teoría de LM, donde SS tiene una interpretación geométrica directa y donde la comparación de modelos o la prueba F única para un ANOVA unidireccional (...)

chl

Lógica detrás de la prueba ANOVA F en regresión lineal simple

Respuestas: