¿Cómo interpretar el término de intercepción en un GLM?

Estoy usando R y he estado analizando mis datos con GLM con el enlace Binomial.

Quiero saber cuál es el significado de la intercepción en la tabla de salida. La intercepción de uno de mis modelos es significativamente diferente, sin embargo, la variable no lo es. ¿Qué significa esto?

¿Qué es la intercepción? No sé si me estoy confundiendo a mí mismo, pero después de haber buscado en Internet, no hay nada más que decir, es esto, date cuenta ... o no.

Por favor ayuda, un estudiante muy frustrado

glm(formula = attacked_excluding_app ~ treatment, family = binomial, 
    data = data)
Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.3548   0.3593   0.3593   0.3593   0.3593  
Coefficients:
                         Estimate Std. Error z value Pr(>|z|)   
(Intercept)                 2.708      1.033   2.622  0.00874 **
treatmentshiny_non-shiny    0.000      1.461   0.000  1.00000

(Dispersion parameter for binomial family taken to be 1)
Null deviance: 14.963  on 31  degrees of freedom
Residual deviance: 14.963  on 30  degrees of freedom
(15 observations deleted due to missingness)
AIC: 18.963
Number of Fisher Scoring iterations: 5

r generalized-linear-model Samuel Waldron
fuente

¿Cuál es la función de enlace que especifica en glm?

Tomás

La intersección es el valor predicho de la variable dependiente cuando todas las variables independientes son 0. Sin más información sobre su modelo, no puedo decir si esto es significativo en su caso.

Peter Flom - Restablece a Monica

Respuestas:

El término de intersección es la intersección en la parte lineal de la ecuación GLM, por lo que su modelo para la media es , donde es su función de enlace y es su modelo lineal. Este modelo lineal contiene un "término de intercepción", es decir: $E[Y] = g^{-1}(\mathbf{X \beta})$ $g$ $\mathbf{X\beta}$

$\mathbf{X\beta} = c + X_1\beta_1+X_2\beta_2+\cdots$

En su caso, la intersección es significativamente distinta de cero, pero la variable no lo es, por lo que está diciendo que

$\mathbf{X\beta} = c \neq 0$

Debido a que su función de enlace es binomial, entonces

$g(\mu) = \ln\left(\frac{\mu}{1-\mu}\right)$

Y así, con solo el término de intercepción, su modelo ajustado para la media es:

$E[Y] = \frac{1}{1+e^{-c}}$

Puede ver que si , esto corresponde simplemente a una probabilidad de 50:50 de obtener Y = 1 o 0, es decir, $c=0$ $E[Y] = \frac{1}{1+1} = 0.5$

Por lo tanto, su resultado dice que no puede predecir el resultado, pero una clase (1 o 0) es más probable que la otra.

Corone
fuente

Me asustaste en E [Y] = .... :). Gracias por la respuesta, entiendo lo que estás diciendo. Dijiste que la intercepción es sig. no cero, pero la var. no es, es p = 1.00? ¿Qué efecto tienen las variables p-value en lo que puedo decir sobre el resultado?

Samuel Waldron

Si el valor p de una variable no es pequeño, el que normalmente no incluiría esa variable en el modelo. En su caso, ni siquiera se estima que la variable tenga un valor distinto de cero, de ahí el valor p de 1.00. Básicamente no hay relación entre "tratamiento" y "Attacked_Excluding_app". La ausencia de relación es tan perfecta aquí que es casi sospechosa, aunque tiene un pequeño conjunto de datos. Puede valer la pena visualizar sus datos y ver si son razonables.

Corone

+1 para la respuesta (y sugerencia en el comentario de que algo extraño está sucediendo en el conjunto de datos) aunque no estoy de acuerdo con la apertura de su comentario "Si un valor p de las variables no es pequeño, el que normalmente no incluiría esa variable en el modelo." Esto no es necesariamente así: a menudo uno quiere informar la magnitud de una relación, incluso si no es "significativa" (y más concretamente, si estaba interesado en modelar una relación para empezar, entonces un resultado nulo es sigue siendo importante informar.)

James Stanley

@James: muy buen punto, uno siempre debe informar qué variables probó. Debería haber sido más claro, simplemente quise decir que uno normalmente no incluiría esa variable cuando intente usar el modelo para hacer un pronóstico (ya que generalmente significaría un sobreajuste )

Corone

@Corone - Estoy particularmente interesado en sus comentarios aquí sobre variables en / exclusión y su relación con el hilo en stats.stackexchange.com/questions/17624/…

rolando2

Me parece que puede haber algún problema con los datos. Es extraño que la estimación del parámetro para el coeficiente sea 0.000. Parece que tanto su DV como su IV son dicotómicos y que las proporciones de su DV no varían en absoluto con su IV. ¿Es esto correcto?

La intersección, como señalé en mi comentario (y como implica la respuesta de @corone) es el valor del DV cuando el IV es 0. ¿Cómo se codificó su IV? Como es, sin embargo, el hecho de que la estimación del coeficiente sea 0.000 implica que el IV no hace ninguna diferencia.

$\text{log}(\frac{p}{1-p})$

Peter Flom - Restablece a Monica
fuente

Hola chicos, nuevamente gracias por los comentarios. Los puntos de datos son casi idénticos. Lo estoy informando en un informe y tengo que resaltarlo de todos modos. Por eso los resultados parecen extraños. Con estos datos (GLM) y otros conjuntos de datos en mis informes (GLMM) estoy corriendo definitivamente (# TEAM2x2x2x2) antes de que pueda caminar. Creo que mi principal problema es saber lo que necesito informar, ¿menciono las estadísticas para la intercepción o para el IV? A continuación se muestra mi GLMM (con suerte más estándar) nuevamente con un enlace binomial.

Samuel Waldron

Modelo mixto lineal generalizado ajustado por la aproximación de Laplace Fórmula: Atacado ~ Tratamiento + Ensayo + Tratamiento * Ensayo + (1 | Bird) Datos: datos AIC BIC logLik desviación 139.6 153.8 -64.78 129.6 Efectos aleatorios: Grupos Nombre Var. Std.Dev. Bird (Intercepción) 0.87795 0.93699 Número de obs: 128, grupos: Bird, 32

Samuel Waldron

Efectos fijos: Estd Estd. Error valor z Pr (> | z |) (Intercepción) 3.19504 0.90446 3.533 .000412 *** Tratamientos brillante_no-brillante 0.02617 1.26964 0.021 .983558 Prueba -1.53880 0.36705 -4.192 2.76e-05 *** Tratamiento: Prueba 0.16909 0.49501 0.342 .732655 --- Signif. códigos: 0 ' ' 0.001 ' ' 0.01 ' ' 0.05 '.' 0.1 '' 1 Correlación de efectos fijos: (Intr) Trtm_- Trial Trtmntshn_- -0.712 Trial -0.895 0.638 Trtmnts _-: T 0.664 -0.896 -0.742

Samuel Waldron

En su caso, la intersección es la gran media de attacked_excluding_app, calculada para todos los datos independientemente de treatment. La prueba de significancia en la tabla de coeficientes está probando si es significativamente diferente de cero. Si esto es relevante depende de si tiene alguna razón a priori para esperar que sea cero o no.

Por ejemplo, imagina que has probado un medicamento y un placebo por su efecto sobre la presión arterial. Para cada sujeto, registra el cambio en su presión arterial calculando (presión después del tratamiento - presión antes del tratamiento) y trata esto como la variable dependiente en su análisis. Luego descubre que el efecto del tratamiento (fármaco versus placebo) no es significativo, pero que la intercepción es significativamente> 0; esto le indicaría que, en promedio, la presión arterial de sus sujetos aumentó entre los dos tiempos de medición. Esto puede ser interesante y necesita más investigación.

Freya Harrison
fuente