prueba de coeficientes de regresión logística usando

12

Resumen: ¿Existe alguna teoría estadística para apoyar el uso de la distribución (con grados de libertad basados en la desviación residual) para las pruebas de coeficientes de regresión logística, en lugar de la distribución normal estándar? $t$

Hace algún tiempo descubrí que al ajustar un modelo de regresión logística en SAS PROC GLIMMIX, bajo la configuración predeterminada, los coeficientes de regresión logística se prueban usando una distribución lugar de la distribución normal estándar. Es decir, GLIMMIX informa una columna con la relación (que llamaré en el resto de esta pregunta ), pero también informa una columna de "grados de libertad", así como un valor basado en suponer una distribución para $t$ $^1$ $\hat{\beta}_1/\sqrt{\text{var}(\hat{\beta}_1)}$ $z$ $p$ $t$ $z$ con grados de libertad basados en la desviación residual, es decir, grados de libertad = número total de observaciones menos número de parámetros. Al final de esta pregunta, proporciono algo de código y salida en R y SAS para demostración y comparación. $^2$

Esto me confundió, ya que pensé que para los modelos lineales generalizados, como la regresión logística, no había una teoría estadística para apoyar el uso de la distribución en este caso. En cambio, pensé que lo que sabíamos sobre este caso era que $t$

$z$ está "aproximadamente" distribuido normalmente;
esta aproximación puede ser pobre para muestras pequeñas;
sin embargo, no se puede suponer que tiene una distribución como podemos suponer en el caso de regresión normal. $z$ $t$

Ahora, en un nivel intuitivo, me parece razonable que si está distribuido aproximadamente de manera normal, de hecho podría tener alguna distribución que sea básicamente " like", incluso si no es exactamente . Entonces, el uso de la distribución aquí no parece una locura. Pero lo que quiero saber es lo siguiente: $z$ $t$ $t$ $t$

¿Existe de hecho una teoría estadística que muestre que realmente sigue una distribución en el caso de regresión logística y / u otros modelos lineales generalizados? $z$ $t$
Si no existe tal teoría, ¿existen al menos documentos que demuestren que asumir una distribución de esta manera funciona tan bien o tal vez incluso mejor que asumir una distribución normal? $t$

En términos más generales, ¿hay algún apoyo real para lo que GLIMMIX está haciendo aquí aparte de la intuición de que probablemente sea básicamente sensato?

Código R:

summary(glm(y ~ x, data=dat, family=binomial))

Salida R:

Call:
glm(formula = y ~ x, family = binomial, data = dat)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.352  -1.243   1.025   1.068   1.156  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.22800    0.06725   3.390 0.000698 ***
x           -0.17966    0.10841  -1.657 0.097462 .  
---
  Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1235.6  on 899  degrees of freedom
Residual deviance: 1232.9  on 898  degrees of freedom
AIC: 1236.9

Number of Fisher Scoring iterations: 4

Código SAS:

proc glimmix data=logitDat;
    model y(event='1') = x / dist=binomial solution;
run;

Salida SAS (editada / abreviada):

The GLIMMIX Procedure

               Fit Statistics

-2 Log Likelihood            1232.87
AIC  (smaller is better)     1236.87
AICC (smaller is better)     1236.88
BIC  (smaller is better)     1246.47
CAIC (smaller is better)     1248.47
HQIC (smaller is better)     1240.54
Pearson Chi-Square            900.08
Pearson Chi-Square / DF         1.00


                       Parameter Estimates

                         Standard
Effect       Estimate       Error       DF    t Value    Pr > |t|

Intercept      0.2280     0.06725      898       3.39      0.0007
x             -0.1797      0.1084      898      -1.66      0.0978

$^1$ En realidad, me di cuenta por primera vez de los modelos de regresión logística de efectos mixtos en PROC GLIMMIX, y luego descubrí que GLIMMIX también hace esto con la regresión logística "vainilla".

$^2$ Entiendo que en el ejemplo que se muestra a continuación, con 900 observaciones, la distinción aquí probablemente no hace ninguna diferencia práctica. Ese no es realmente mi punto. Estos son solo datos que creé rápidamente y elegí 900 porque es un número atractivo. Sin embargo, me pregunto un poco sobre las diferencias prácticas con tamaños de muestra pequeños, por ejemplo, <30. $n$

r logistic mathematical-statistics sas degrees-of-freedom Jake Westfall
fuente

PROC LOGISTICen SAS produce las pruebas habituales de tipo wald basadas en el -score. Me pregunto qué provocó el cambio en la nueva función (¿subproducto de la generalización?).

z

$z$

Affine

1

SPSS parece probar modelos logísticos de efectos mixtos de la misma manera :(

Richard Border

6

¿Existe de hecho una teoría estadística que muestre que z realmente sigue a la distribución en el caso de regresión logística y / u otros modelos lineales generalizados?

Que yo sepa, no existe tal teoría. Veo regularmente argumentos ondulados a mano y, ocasionalmente, experimentos de simulación para apoyar este enfoque para una familia GLM particular u otra. Las simulaciones son más convincentes que los argumentos manuales.

Si no existe tal teoría, ¿existen al menos documentos que demuestren que asumir una distribución de esta manera funciona tan bien o tal vez incluso mejor que asumir una distribución normal?

No es que recuerde haber visto, pero eso no dice mucho.

Mis propias simulaciones (limitadas) de muestra pequeña sugieren que suponer una distribución t en el caso logístico puede ser sustancialmente peor que asumir una normalidad:

ingrese la descripción de la imagen aquí

Aquí, por ejemplo, están los resultados (como gráficos QQ) de 10000 simulaciones del estadístico de Wald para una regresión logística ordinaria (es decir, efectos fijos, no mixtos) en 15 observaciones x equiespaciadas donde los parámetros de la población eran ambos cero. La línea roja es la línea y = x. Como puede ver, en cada caso lo normal es una aproximación bastante buena en un buen rango en el medio, alrededor de los percentiles 5 y 95 (1.6-1.7ish), y luego fuera de eso la distribución real del estadístico de prueba es sustancialmente más ligero de cola que lo normal.

Por lo tanto, para el caso logístico, diría que cualquier argumento para usar la t, en lugar de la z, parece poco probable que tenga éxito sobre esta base, ya que las simulaciones como estas tienden a sugerir que los resultados tienden a estar en la cola más clara. lado de lo normal, en lugar de la cola más pesada.

[Sin embargo, le recomiendo que no confíe más en mis simulaciones que como una advertencia para tener cuidado: intente algunas propias, tal vez para circunstancias más representativas de sus propias situaciones típicas de sus IV y modelos (por supuesto, debe simular el caso donde algún nulo es verdadero para ver qué distribución usar debajo del nulo). Me interesaría saber cómo te salen.]

Glen_b -Reinstate a Monica
fuente

1

Gracias Glen Ese es un resultado interesante acerca de que las distribuciones en realidad tienen una cola más ligera de lo normal en lugar de una cola más pesada. Entonces parece que incluso la intuición básica detrás de la idea está fuera de lugar, al menos para algunos casos realistas.

t

$t$

Jake Westfall

4

Aquí hay algunas simulaciones adicionales solo para ampliar un poco lo que Glen_b ya presentó.

$[-1,1]$ $N=10,20,40,80$ $p=0.5,0.731,0.881,0.952$

$z$ $t$ $df=N-2$ $z=0$ $p$ $=1$ QQsim

$p$ $t$ $p$ $p$ HistSim

$t$

Jake Westfall
fuente

3

Buen trabajo los dos. Bill Gould estudió esto en http://www.citeulike.org/user/harrelfe/article/13264166 haciendo las mismas conclusiones, en un modelo logístico binario estándar de efectos fijos.

$t$

Frank Harrell
fuente

prueba de coeficientes de regresión logística usando

Respuestas: