Interpretación de la desviación residual y nula en GLM R

47

¿Cómo interpretar la desviación nula y residual en GLM en R? Como, decimos que AIC más pequeño es mejor. ¿Hay alguna interpretación similar y rápida para las desviaciones también?

Desviación nula: 1146.1 en 1077 grados de libertad Desviación residual: 4589.4 en 1099 grados de libertad AIC: 11089

Anjali
fuente

Respuestas:

74

Dejar LL = verosimilitud

Aquí hay un resumen rápido de lo que ve en la salida de resumen (glm.fit),

Desviación nula = 2 (LL (modelo saturado) - LL (modelo nulo)) en df = df_Sat - df_Null

Desviación residual = 2 (LL (modelo saturado) - LL (modelo propuesto)) df = df_Sat - df_Proposed

El modelo saturado es un modelo que supone que cada punto de datos tiene sus propios parámetros (lo que significa que tiene n parámetros para estimar).

El modelo nulo supone el "opuesto" exacto, es decir, supone un parámetro para todos los puntos de datos, lo que significa que solo estima 1 parámetro.

El modelo propuesto supone que puede explicar sus puntos de datos con p parámetros + un término de intercepción, por lo que tiene parámetros p + 1.

Si su desviación nula es realmente pequeña, significa que el modelo nulo explica los datos bastante bien. Del mismo modo con su desviación residual .

¿Qué significa realmente pequeño? Si su modelo es "bueno", su desviación es de aproximadamente Chi ^ 2 con (df_sat - df_model) grados de libertad.

Si desea comparar su modelo nulo con su modelo propuesto, puede ver

(Desviación nula - Desviación residual) aproximadamente Chi ^ 2 con df Propuesta - df Nulo = (n- (p + 1)) - (n-1) = p

¿Son los resultados que dio directamente de R? Parecen un poco extraños, porque generalmente debería ver que los grados de libertad informados en el Nulo siempre son más altos que los grados de libertad informados en el Residual. Esto se debe a que, de nuevo, Desviación nula df = df saturado - nf df = n-1 Desviación residual df = df saturado - df propuesto = n- (p + 1)

TeresaStat
fuente
Sí, es un reportaje muy útil @TeresaStat, gracias. ¿Qué tan robusto es esto? ¿Cambian las definiciones si estás hablando de un modelo multinomial en lugar de un GLM?
Hack-R
@Teresa: Sí, estos resultados son de R. ¿Por qué sucedería esto? ¿Algún problema con el modelo aquí?
Anjali
@ Hack-R: perdón por una respuesta tan tardía, soy nuevo en Stackexchange. Para los modelos multinomiales, no utiliza la función glm en R y la salida es diferente. Deberá observar un modelo de probabilidades proporcionales o una regresión ordinal, la función mlogit. Vale la pena leer un poco sobre películas multinomiales, tienen suposiciones ligeramente diferentes. Si puedo acceder durante el descanso, actualizaré esto con más información.
TeresaStat
@Anjali, no estoy muy seguro de por qué obtendrías resultados así en R. Es difícil saberlo sin ver tus datos / resultados. En general, no veo por qué los grados residuales de libertad serían más altos que el nulo df. ¿Cuántos parámetros estabas estimando?
TeresaStat
1
@ user4050 El objetivo del modelado en general puede verse como el uso del menor número de parámetros para explicar al máximo su respuesta. Para determinar cuántos parámetros usar, debe considerar el beneficio de agregar un parámetro más. Si un parámetro adicional explica mucho (produce una gran desviación) de su modelo más pequeño, entonces necesita el parámetro adicional. Para cuantificar cuánto es, se necesita una teoría estadística. La teoría nos dice que la desviación es chi cuadrado con grados de libertad iguales a la diferencia de parámetros entre sus dos modelos. ¿Está más claro?
TeresaStat
13

La desviación nula muestra qué tan bien predice la respuesta el modelo con nada más que una intercepción.

La desviación residual muestra qué tan bien el modelo predice la respuesta cuando se incluyen los predictores. A partir de su ejemplo, se puede ver que la desviación aumenta en 3443.3 cuando se agregan 22 variables predictoras (nota: grados de libertad = no. De observaciones - no. De predictores). Este aumento en la desviación es evidencia de una falta significativa de ajuste.

También podemos usar la desviación residual para probar si la hipótesis nula es verdadera (es decir, el modelo de regresión logística proporciona un ajuste adecuado para los datos). Esto es posible porque la desviación está dada por el valor de chi-cuadrado en ciertos grados de libertad. Para probar la significancia, podemos encontrar los valores p asociados usando la fórmula siguiente en R:

p-value = 1 - pchisq(deviance, degrees of freedom)

Usando los valores anteriores de desviación residual y DF, obtiene un valor p de aproximadamente cero que muestra que hay una falta significativa de evidencia para apoyar la hipótesis nula.

> 1 - pchisq(4589.4, 1099)
[1] 0
dts86
fuente
2
¿Cómo sabe cuál es el límite para un ajuste bueno / malo en función de la desviación y el número de variables predictoras (sin el pchisq)? ¿Es solo si Desviación residual> Desviación nula o hay algún rango / relación?
Hack-R
3
Su respuesta no es incorrecta, pero está sujeta a malentendidos. De hecho, ha sido mal entendido (cf aquí ). A la luz de eso, ¿puede aclarar las diferencias implícitas en su código?
gung - Restablece a Monica