Estoy tratando de entender la lógica detrás de la prueba ANOVA F en el análisis de regresión lineal simple. La pregunta que tengo es la siguiente. Cuando el valor F, MSR/MSE
es decir,
es grande, aceptamos el modelo como significativo. ¿Cuál es la lógica detrás de esto?
regression
anova
No puedo decir
fuente
fuente
Respuestas:
En el caso más simple, cuando tiene un solo predictor (regresión simple), digamos , la prueba le dice si incluir explica una mayor parte de la varianza observada en en comparación con el modelo nulo (solo intercepción). La idea es entonces probar si la varianza explicada agregada (varianza total, TSS, menos la varianza residual, RSS) es lo suficientemente grande como para ser considerada como una "cantidad significativa". Aquí estamos comparando un modelo con un predictor, o variable explicativa, con una línea de base que es solo "ruido" (nada excepto la gran media).X1 F X1 Y
Del mismo modo, puede calcular una estadística en una configuración de regresión múltiple: en este caso, equivale a una prueba de todos los predictores incluidos en el modelo, lo que en el marco HT significa que nos preguntamos si alguno de ellos es útil para predecir la respuesta variable. Esta es la razón por la que puede encontrar situaciones en las que la prueba para todo el modelo es significativa, mientras que algunas de las pruebas o asociadas a cada coeficiente de regresión no lo son.F F t z
La estadística parece aF
donde es el número de parámetros del modelo el número de observaciones. Esta cantidad debe referirse a una distribución para un valor crítico o . También se aplica al modelo de regresión simple, y obviamente tiene cierta analogía con el marco ANOVA clásico.p n Fp−1,n−p p
Nota al margen. Cuando tiene más de un predictor, entonces puede preguntarse si considerar solo un subconjunto de esos predictores "reduce" la calidad del ajuste del modelo. Esto corresponde a una situación en la que consideramos modelos anidados . Esta es exactamente la misma situación que las anteriores, donde comparamos un modelo de regresión dado con un modelo nulo (no se incluyen predictores). Para evaluar la reducción en la varianza explicada, podemos comparar la suma residual de cuadrados (RSS) de ambos modelos (es decir, lo que queda sin explicar una vez que se tiene en cuenta el efecto de los predictores presentes en el modelo). Deje que y denoten el modelo base (conM0 M1 p parámetros) y un modelo con un predictor adicional ( parámetros), entonces si es pequeño, consideraríamos que el modelo más pequeño funciona tan bien como el más grande. Una buena estadística para usar sería la relación de tales SS, , ponderado por sus grados de libertad ( para el numerador y para el denominador). Como ya se dijo, se puede demostrar que esta cantidad sigue una distribución (o Fisher-Snedecor) con grados de libertad y . Si la observadaq=p+1 RSSM1−RSSM0 (RSSM1−RSSM0)/RSSM0 p−q n−p F p−q n−p F es mayor que el cuantil correspondiente en un dado (típicamente, ), entonces concluiríamos que el modelo más grande hace un "mejor trabajo". (¡Esto de ninguna manera implica que el modelo sea correcto, desde un punto de vista práctico!)F α α=0.05
Una generalización de la idea anterior es la prueba de razón de probabilidad .
Si está utilizando R, puede jugar con los conceptos anteriores como este:
fuente
anova()
función en R devuelve una fila individual para cada predictor en el modelo. Por ejemplo,anova(lm0)
anterior devuelve una fila paraV1
,V2
yResiduals
(y no total). Como tal, obtenemos dos estadísticas F * para este modelo. ¿Cómo cambia esto la interpretación de la estadística F * informada en la tabla ANOVA?anova()
para la comparación GLM. Cuando se aplica a un objetolm
uaov
, muestra efectos separados (SS) para cada término en el modelo y no muestra TSS. (Solía aplicar esto al revés, es decir, después de ajustar un ANOVAaov()
, puedo usarlosummary.lm()
para tener una idea de los contrastes de tratamiento). Sin embargo, hay problemas sutiles entresummary.lm()
ysummary.aov()
, especialmente relacionados con el ajuste secuencial.