Pruebe el modelo GLM utilizando dispositivos nulos y modelos

11

He construido un modelo glm en R y lo he probado usando un grupo de prueba y entrenamiento, así que estoy seguro de que funciona bien. Los resultados de R son:

Coefficients:
                            Estimate Std. Error  t value Pr(>|t|)    
(Intercept)               -2.781e+00  1.677e-02 -165.789  < 2e-16 ***
Coeff_A                    1.663e-05  5.438e-06    3.059  0.00222 ** 
log(Coeff_B)               8.925e-01  1.023e-02   87.245  < 2e-16 ***
log(Coeff_C)              -3.978e-01  7.695e-03  -51.689  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for quasibinomial family taken to be 0.9995149)

    Null deviance: 256600  on 671266  degrees of freedom
Residual deviance: 237230  on 671263  degrees of freedom
AIC: NA

Todos los valores de p para los coeficientes son pequeños como se esperaba.

Al observar esta pregunta ( Interpretación de la desviación residual y nula en GLM R ), debería poder calcular si la hipótesis nula se cumple utilizando la siguiente ecuación:

p-value = 1 - pchisq(deviance, degrees of freedom)

Pegar esto da:

1 - pchisq(256600, 671266)
[1] 1

Entonces, ¿estoy en lo cierto al pensar que la hipótesis nula no puede rechazarse aquí, a pesar de que los valores de p para todos los coeficientes son tan pequeños o he malinterpretado cómo calcular esto?

Zfunk
fuente

Respuestas:

18

Hay un malentendido aquí. La diferencia entre la desviación nula y la desviación del modelo se distribuye como un chi-cuadrado con grados de libertad iguales a la nula df menos la df del modelo. Para su modelo, eso sería:

1-pchisq(256600 - 237230, df=(671266 - 671263))
# [1] 0

Por defecto, pchisq()da la proporción de la distribución a la izquierda del valor. Para obtener la proporción más extrema que su diferencia, puede especificar lower.tail = FALSEo restar el resultado de (como lo hemos hecho usted y yo). 1

gung - Restablece a Monica
fuente
2
¿Qué hipótesis estás probando exactamente con el enunciado 1-pchisq(256600 - 237230, df=(671266 - 671263))?
jII
55
@jesterII, está comprobando si la desviación cambió más de lo que podría esperarse por casualidad. Es decir, está probando si el modelo en su conjunto es mejor que el modelo nulo. Es análogo a la prueba F global en un modelo lineal.
gung - Restablece a Monica
La hipótesis nula es "el modelo en su conjunto es mejor que el modelo nulo", y usted ha rechazado la hipótesis nula, lo que significa que el modelo es pobre.
jII
3
@jesterII, no, la hipótesis nula es: "el modelo en su conjunto no es mejor que el modelo nulo". Dado que esto ha sido rechazado, concluimos que los datos no son consistentes con el modelo nulo. NB, esto no significa necesariamente que nuestro modelo sea "bueno" o "correcto".
gung - Restablece a Monica