Digamos que tengo dos modelos de regresión, uno con tres variables y otro con cuatro. Cada uno escupe un r ^ 2 ajustado, que puedo comparar directamente.
Obviamente, el modelo con el r ^ 2 ajustado más alto es el mejor ajuste, pero ¿hay alguna forma de probar la diferencia entre los dos r ^ 2 ajustados y obtener un valor p?
Sé que puedes hacer la prueba de Chow para probar la diferencia entre pendientes, pero esto es una variación, así que no creo que sea lo que estoy buscando.
Editar: un modelo no contiene simplemente un subconjunto de variables del otro modelo, o de lo contrario probablemente usaría la regresión por pasos.
En el modelo 1, tengo cuatro variables: W, X, Y y Z.
En el modelo 2, tengo tres variables: W, X e (Y + Z) / 2.
La idea es que si Y y Z son conceptualmente similares, el modelo puede hacer mejores predicciones al agrupar estas dos variables antes de ingresarlas en el modelo.
fuente
Respuestas:
Como dijo Whuber, este es realmente un caso de modelos anidados, y por lo tanto, uno puede aplicar una prueba de razón de probabilidad . Debido a que todavía no está exactamente claro qué modelos está especificando, los reescribiré en este ejemplo;
Entonces el modelo 1 puede ser:
Y el modelo 2 puede ser (ignoro la división por 2, pero esta acción no tiene consecuencias para su pregunta):
Que puede reescribirse como:
Y, por lo tanto, el modelo 2 es un caso específico del modelo 1 en el que y son iguales. Se puede usar la prueba de razón de probabilidad entre estos dos modelos para asignar un valor p al ajuste del modelo 1 en comparación con el modelo 2. Existen buenas razones en la práctica para hacerlo, especialmente si la correlación entre W y Z es bastante grande ( multicolinealidad ). Como dije anteriormente, si divide entre dos no importa para probar el ajuste de los modelos, aunque si es más fácil de interpretar entonces usa el promedio de dos variablesB12 B13 W+ZW+Z2 W+Z
Las estadísticas de ajuste del modelo (como el CP de Mallow ya mencionado por bill_080, y otros ejemplos son AIC y BIC ), se utilizan con frecuencia para evaluar modelos no anidados. Esas estadísticas no siguen distribuciones conocidas (como lo hace el log-verosimilitud, Chi-cuadrado ) y, por lo tanto, las diferencias en esas estadísticas entre modelos no pueden recibir un valor p.
fuente
Echa un vistazo a Cp de Mallow:
CP de malva
Aquí hay una pregunta relacionada:
¿Hay alguna manera de optimizar la regresión de acuerdo con un criterio específico?
fuente
Dada la configuración en la respuesta de Andy W, si uno estima el modelo
la prueba asociada con le da la prueba de que el modelo 1 es diferente del modelo 2. La razón es que es exactamente (una parte del signo) la diferencia entre y . Por lo tanto, si su diferencia no es significativa, mantener W y Z en el modelo (modelo 1) no ayuda en términos de varianza explicados en comparación con combinarlos en una variable (modelo 2). Si es significativo, el modelo 1 es mejor. B 33 B 12 B 13 B 33B33 B33 B12 B13 B33
fuente