Importancia de los coeficientes de regresión (GAM) cuando la probabilidad del modelo no es significativamente mayor que nula

10

Estoy ejecutando una regresión basada en GAM usando el paquete R gamlss y suponiendo una distribución beta de los datos inflada a cero. Tengo sólo una única variable explicativa en mi modelo, por lo que es básicamente: mymodel = gamlss(response ~ input, family=BEZI).

El algoritmo me da el coeficiente para el impacto de la variable explicativa en la media ( ) y el valor p asociado para , algo así como:kμk(input)=0

Mu link function:  logit                                               
Mu Coefficients:                                                      
              Estimate  Std. Error  t value   Pr(>|t|)                  
(Intercept)  -2.58051     0.03766  -68.521  0.000e+00                  
input        -0.09134     0.01683   -5.428  6.118e-08

Como puede ver en el ejemplo anterior, la hipótesis de se rechaza con gran confianza.k(input)=0

Luego ejecuto el modelo nulo: null = gamlss(response ~ 1, family=BEZI)y comparo las probabilidades usando una prueba de razón de probabilidad:

p=1-pchisq(-2*(logLik(null)[1]-logLik(mymodel)[1]), df(mymodel)-df(null)).

En varios casos, obtengo incluso cuando se informa que los coeficientes en la entrada son altamente significativos (como arriba). Encuentro esto bastante inusual, al menos nunca sucedió en mi experiencia con regresión lineal o logística (de hecho, esto tampoco sucedió cuando estaba usando gamma con ajuste cero con gamlss).p>0.05

Mi pregunta es: ¿puedo seguir confiando en la dependencia entre respuesta e información cuando este es el caso?

a11msp
fuente

Respuestas:

1

No veo una razón inmediata por la que esto debería estar relacionado con GAM. El hecho es que está utilizando dos pruebas para la misma cosa. Como no hay certeza absoluta en las estadísticas, es muy posible que uno dé un resultado significativo y el otro no.

Quizás una de las dos pruebas sea simplemente más poderosa (pero tal vez se base en algunas suposiciones más), o tal vez la única significativa sea su error tipo I de uno en veinte.

Un buen ejemplo son las pruebas para determinar si las muestras provienen de la misma distribución: tiene pruebas muy paramétricas para eso (la prueba T es una que puede usarse para esto: si las medias son diferentes, también lo deberían ser las distribuciones), y también no paramétricas unos: podría suceder que el paramétrico dé un resultado significativo y el no paramétrico no. Esto podría deberse a que los supuestos de la prueba paramétrica son falsos, a que los datos son simplemente extraordinarios (tipo I), o porque el tamaño de la muestra no es suficiente para que la prueba no paramétrica capte la diferencia o, finalmente, porque el aspecto de lo que realmente quiere probar (diferentes distribuciones) que es verificado por las diferentes pruebas es simplemente diferente (diferentes significa <-> posibilidad de ser "mayor que").

Si el resultado de una prueba muestra resultados significativos, y el otro es solo ligeramente no significativo, no me preocuparía demasiado.

Nick Sabbe
fuente