Prueba de diferencia entre dos (ajustados) r ^ 2

8

Digamos que tengo dos modelos de regresión, uno con tres variables y otro con cuatro. Cada uno escupe un r ^ 2 ajustado, que puedo comparar directamente.

Obviamente, el modelo con el r ^ 2 ajustado más alto es el mejor ajuste, pero ¿hay alguna forma de probar la diferencia entre los dos r ^ 2 ajustados y obtener un valor p?

Sé que puedes hacer la prueba de Chow para probar la diferencia entre pendientes, pero esto es una variación, así que no creo que sea lo que estoy buscando.

Editar: un modelo no contiene simplemente un subconjunto de variables del otro modelo, o de lo contrario probablemente usaría la regresión por pasos.

En el modelo 1, tengo cuatro variables: W, X, Y y Z.

En el modelo 2, tengo tres variables: W, X e (Y + Z) / 2.

La idea es que si Y y Z son conceptualmente similares, el modelo puede hacer mejores predicciones al agrupar estas dos variables antes de ingresarlas en el modelo.

Jeff
fuente
3
¿Están anidados los modelos (es decir, los modelos son los mismos, excepto por una variable en el modelo de cuatro variables?)
Andy W
Buena Q .. No, no lo son, pero cerca. Un modelo usa cuatro variables, WXY y Z. El otro modelo tiene tres variables, WX y (Y + Z) / 2. Aunque Y y Z pueden o no tener una ponderación igual en el segundo modelo.
Jeff
1
debe actualizar su pregunta con esta información, intentar escribir los modelos que está ajustando matemáticamente y ser lo más explícito posible sobre la transformación a "Y y Z" y lo que está tratando de lograr con esa transformación.
Andy W
Bueno, sigamos con un promedio simple por ahora ... Q ha sido actualizado, ¡gracias!
Jeff
1
Sí, los modelos están anidados. Para ver esto, puede reescribir el modelo 1 en términos de W, X, (Y + Z) / 2 y (por ejemplo) (YZ) / 2, mostrando que el modelo 2 simplemente elimina una variable.
whuber

Respuestas:

8

Como dijo Whuber, este es realmente un caso de modelos anidados, y por lo tanto, uno puede aplicar una prueba de razón de probabilidad . Debido a que todavía no está exactamente claro qué modelos está especificando, los reescribiré en este ejemplo;

Entonces el modelo 1 puede ser:

Y=a1+B11(X)+B12(W)+B13(Z)+e1

Y el modelo 2 puede ser (ignoro la división por 2, pero esta acción no tiene consecuencias para su pregunta):

Y=a2+B21(X)+B22(W+Z)+e2

Que puede reescribirse como:

Y=a2+B21(X)+B22(W)+B22(Z)+e2

Y, por lo tanto, el modelo 2 es un caso específico del modelo 1 en el que y son iguales. Se puede usar la prueba de razón de probabilidad entre estos dos modelos para asignar un valor p al ajuste del modelo 1 en comparación con el modelo 2. Existen buenas razones en la práctica para hacerlo, especialmente si la correlación entre W y Z es bastante grande ( multicolinealidad ). Como dije anteriormente, si divide entre dos no importa para probar el ajuste de los modelos, aunque si es más fácil de interpretar entonces usa el promedio de dos variablesB12B13 W+ZW+Z2W+Z

Las estadísticas de ajuste del modelo (como el CP de Mallow ya mencionado por bill_080, y otros ejemplos son AIC y BIC ), se utilizan con frecuencia para evaluar modelos no anidados. Esas estadísticas no siguen distribuciones conocidas (como lo hace el log-verosimilitud, Chi-cuadrado ) y, por lo tanto, las diferencias en esas estadísticas entre modelos no pueden recibir un valor p.

Andy W
fuente
0

Dada la configuración en la respuesta de Andy W, si uno estima el modelo

Y=a3+B31(X)+B32(W+Z)+B33(Z)+e3

la prueba asociada con le da la prueba de que el modelo 1 es diferente del modelo 2. La razón es que es exactamente (una parte del signo) la diferencia entre y . Por lo tanto, si su diferencia no es significativa, mantener W y Z en el modelo (modelo 1) no ayuda en términos de varianza explicados en comparación con combinarlos en una variable (modelo 2). Si es significativo, el modelo 1 es mejor. B 33 B 12 B 13 B 33B33B33B12B13B33

Mcfanda
fuente
¿Trata esto con la pregunta original sobre las diferencias entre ajustado ? R2
Michael R. Chernick
Sí, la prueba inferencial en B_33 es equivalente a probar la diferencia entre los dos R ^ 2 (ajustados o no) del modelo1 y modelo2
mcfanda