Interpretación de la salida de R para regresión binomial

38

Soy bastante nuevo en esto con las pruebas de datos binomiales, pero necesitaba hacer una y ahora no estoy seguro de cómo interpretar el resultado. La variable y, la variable de respuesta, es binomial y los factores explicativos son continuos. Esto es lo que obtuve al resumir el resultado:

glm(formula = leaves.presence ~ Area, family = binomial, data = n)

Deviance Residuals: 
Min      1Q  Median      3Q     Max  
-1.213  -1.044  -1.023   1.312   1.344  

Coefficients:
                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
leaves.presence        0.0008166  0.0002472   3.303 0.000956 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 
(Dispersion parameter for binomial family taken to be 1)

Null deviance: 16662  on 12237  degrees of freedom
Residual deviance: 16651  on 12236  degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4

Hay varias cosas que no entiendo aquí, ¿qué dice esto realmente?

                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
leaves.presence        0.0008166  0.0002472   3.303 0.000956 ***

¿Y qué significan las iteraciones AIC y Number of Fisher Scoring?

> fit
Call:  glm(formula = Lövförekomst ~ Areal, family = binomial, data = n)

Coefficients:
(Intercept)        Areal  
-0.3877697    0.0008166  

Degrees of Freedom: 12237 Total (i.e. Null);  12236 Residual
(314 observations deleted due to missingness)
Null Deviance:      16660 
Residual Deviance: 16650        AIC: 16650

Y aquí, ¿qué significa esto:

Coefficients:
(Intercept)        Areal  
-0.3877697    0.0008166 
usuario40116
fuente
66
Dado que su pregunta es muy amplia: "¿cómo se interpreta una regresión binomial?" - Sugeriría recoger un texto introductorio sobre el tema. Una introducción al análisis de datos categóricos de Agresti es muy accesible.
Sycorax dice Reinstate a Monica
2
Esto puede ser demasiado amplio para responder aquí; como dijo @ user777, consultar un buen texto podría estar en orden. Agresti es bueno, estoy de acuerdo. Hosmer & Lemeshow también es bueno. Si desea algo breve y gratuito (alerta de autoenchufe), vea mi introducción a la regresión logística, pero puede ser demasiado básica para sus necesidades.
Peter Flom - Restablece a Monica
Ok, gracias por sus respuestas rápidas, probaré Agresti y veré si ayuda :)
user40116
44
No creo que esta pregunta sea demasiado amplia para responder. Me parece que es esencialmente la versión de regresión logística de la interpretación de rs-lm-output , que se ha considerado constantemente sobre el tema.
gung - Restablece a Monica
1
Estoy con @gung en este caso , si la pregunta es sobre interpretar lo que R arrojó a chorros en la pantalla. Donde hay ambigüedad, ¿qué se entiende por "malo"? Si el OP está contento de que le digan que los coeficientes son los valores estimados del modelo con valores en la escala de las probabilidades de registro, entonces esta Q está bien. Si el OP no está satisfecho con esto y requiere una explicación de su significado en términos de datos, modelo, etc., entonces sería una pregunta demasiado amplia dado que esta es solo una de varias preguntas.
Restablece a Monica - G. Simpson

Respuestas:

74

Lo que has hecho es la regresión logística . Esto se puede hacer básicamente en cualquier software estadístico, y el resultado será similar (al menos en contenido, aunque la presentación puede diferir). Hay una guía de regresión logística con R en el excelente sitio web de ayuda de estadísticas de UCLA. Si no está familiarizado con esto, mi respuesta aquí: diferencia entre los modelos logit y probit puede ayudarlo a comprender de qué se trata LR (aunque está escrito en un contexto diferente).

Parece que tienes dos modelos presentados, principalmente me enfocaré en el mejor. Además, parece que ha habido un error al copiar y pegar el modelo o la salida, por lo que cambiaré leaves.presencecon Areala salida para que sea coherente con el modelo. Aquí está el modelo al que me refiero (observe que agregué (link="logit"), lo que está implícito en family=binomial; vea ? Glm y ? Family ):

glm(formula = leaves.presence ~ Area, family = binomial(link="logit"), data = n)

Veamos esta salida (observe que cambié el nombre de la variable en la segunda línea debajo Coefficients):

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.213  -1.044  -1.023   1.312   1.344  

Coefficients:
                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
Area                   0.0008166  0.0002472   3.303 0.000956 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 
(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 16662  on 12237  degrees of freedom
Residual deviance: 16651  on 12236  degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4

Así como hay residuos en la regresión lineal (MCO), puede haber residuos en la regresión logística y otros modelos lineales generalizados. Sin embargo, son más complicados cuando la variable de respuesta no es continua. Los GLiM pueden tener cinco tipos diferentes de residuos, pero lo que viene en la lista estándar son los residuos de desviación. (La desviación y los residuos de desviación son más avanzados, así que seré breve aquí; si esta discusión es algo difícil de seguir, no me preocuparía demasiado, puede omitirla):

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.213  -1.044  -1.023   1.312   1.344  

Para cada punto de datos utilizado en su modelo, se calcula la desviación asociada con ese punto. Una vez hecho esto para cada punto, tiene un conjunto de tales residuos, y el resultado anterior es simplemente una descripción no paramétrica de su distribución.


A continuación, vemos la información sobre las covariables, que es lo que la gente suele interesar principalmente:

Coefficients:
                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
Area                   0.0008166  0.0002472   3.303 0.000956 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Para un modelo de regresión logística simple como este, solo hay una covariable ( Areaaquí) y la intercepción (también a veces llamada 'constante'). Si tuviera una regresión logística múltiple, habría covariables adicionales enumeradas debajo de estas, pero la interpretación de la salida sería la misma. Debajo Estimatede la segunda fila está el coeficiente asociado con la variable listada a la izquierda. Es la cantidad estimada por la cual las probabilidades de registro leaves.presenceaumentarían si Areafuera una unidad más alta. Las probabilidades de registro de leaves.presencecuándo Areaes0 0está justo arriba en la primera fila. (Si no está lo suficientemente familiarizado con las probabilidades de registro, puede ayudarlo leer mi respuesta aquí: interpretación de predicciones simples a razones de probabilidades en la regresión logística .) En la siguiente columna, vemos el error estándar asociado con estas estimaciones. Es decir, son una estimación de cuánto, en promedio, estas estimaciones rebotarían si el estudio se volviera a ejecutar de forma idéntica, pero con nuevos datos, una y otra vez. (Si no está muy familiarizado con la idea de un error estándar, puede serle útil leer mi respuesta aquí: cómo interpretar los errores estándar de coeficientes en la regresión lineal ). Si dividiéramos la estimación por el error estándar, obtendríamos un cociente que se supone que normalmente se distribuye con muestras suficientemente grandes. Este valor se enumera en debajo z value. A continuación Pr(>|z|)se enumeran los valores p de dos colas que corresponden a esos valores z en una distribución normal estándar. Por último, están las estrellas de importancia tradicionales (y tenga en cuenta la clave debajo de la tabla de coeficientes).


La Dispersionlínea se imprime de forma predeterminada con GLiM, pero no agrega mucha información aquí (es más importante con los modelos de conteo, por ejemplo). Podemos ignorar esto.


Por último, obtenemos información sobre el modelo y su bondad de ajuste:

    Null deviance: 16662  on 12237  degrees of freedom
Residual deviance: 16651  on 12236  degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4

La línea sobre a missingnessmenudo falta, um. Se manifiesta aquí, ya que tenía 314 observaciones para las cuales ya sea leaves.presence, Areao ambos habían desaparecido. Esas observaciones parciales no se utilizaron para ajustar el modelo.

El Residual deviancees una medida de la falta de ajuste de su modelo tomado como un todo, mientras que la Null deviancees una medida de este tipo para un modelo reducido que sólo incluye la intersección. Observe que los grados de libertad asociados con estos dos difieren solo en uno. Como su modelo tiene solo una covariable, solo se ha estimado un parámetro adicional (el Estimatefor Area) y, por lo tanto, solo se ha consumido un grado adicional de libertad. Estos dos valores se pueden usar para realizar una prueba del modelo como un todo, lo que sería análogo al globalF-test que viene con un modelo de regresión lineal múltiple. Como solo tiene una covariable, esta prueba no sería interesante en este caso.

El AIC es otra medida de bondad de ajuste que tiene en cuenta la capacidad del modelo para ajustar los datos. Esto es muy útil cuando se comparan dos modelos en los que uno puede ajustarse mejor, pero quizás solo en virtud de ser más flexible y, por lo tanto, más capaz de ajustar cualquier información. Como solo tiene un modelo, esto no es informativo.

La referencia a Fisher scoring iterationstiene que ver con cómo se estimó el modelo. Un modelo lineal puede ajustarse resolviendo ecuaciones de forma cerrada. Desafortunadamente, eso no se puede hacer con la mayoría de los GLiM, incluida la regresión logística. En cambio, se utiliza un enfoque iterativo (el algoritmo de Newton-Raphson por defecto). En términos generales, el modelo se ajusta basándose en una suposición sobre cuáles podrían ser las estimaciones. Luego, el algoritmo mira a su alrededor para ver si el ajuste se mejoraría mediante el uso de diferentes estimaciones. Si es así, se mueve en esa dirección (digamos, usando un valor más alto para la estimación) y luego se ajusta nuevamente al modelo. El algoritmo se detiene cuando no percibe que moverse de nuevo produciría muchas mejoras adicionales. Esta línea le indica cuántas iteraciones hubo antes de que el proceso se detuviera y mostrara los resultados.



Con respecto al segundo modelo y salida que enumera, esta es solo una forma diferente de mostrar los resultados. Específicamente, estos

Coefficients:
(Intercept)       Areal  
-0.3877697    0.0008166

son el mismo tipo de estimaciones discutidas anteriormente (aunque de un modelo diferente y presentado con menos información complementaria).

gung - Restablece a Monica
fuente
1

Llamada : esta es solo la llamada que realizó a la función. Será exactamente el mismo código que escribió en R. Esto puede ser útil para ver si cometió algún error tipográfico.

(Desviación) Residuos: puede ignorarlos para la regresión logística. Para Poisson o regresión lineal, desea que estos se distribuyan más o menos normalmente (que es lo mismo que los dos gráficos de diagnóstico principales están comprobando). Puede verificar esto al ver si el valor absoluto de 1Q y 3Q están cerca (ish) entre sí, y si la mediana está cerca de 0. La media no se muestra porque siempre es 0. Si alguno de estos está súper apagado, entonces probablemente tengas algún sesgo extraño en tus datos. (¡Esto también aparecerá en sus diagramas de diagnóstico!)

Coeficientes : esta es la carne de la producción.

  • Intercepción : para Poisson y la regresión lineal, esta es la salida pronosticada cuando todas nuestras entradas son 0. Para la regresión logística, este valor estará más lejos de 0 cuanto mayor sea la diferencia entre el número de observación en cada clase. El error estándar representa cuán inseguros estamos sobre esto (más bajo es mejor). En este caso, debido a que nuestra intersección está lejos de 0 y nuestro error estándar es mucho más pequeño que la intersección, podemos estar bastante seguros de que una de nuestras clases (falló o no falló) tiene muchas más observaciones. (¡En este caso es "no falló", afortunadamente!)

  • Diversas entradas (cada entrada estará en una línea diferente): esta estimación representa cuánto creemos que la salida cambiará cada vez que aumentemos esta entrada en 1. Cuanto mayor sea la estimación, mayor será el efecto de esta variable de entrada en la salida. El error estándar es cuán seguros estamos al respecto. Por lo general, podemos estar bastante seguros de que una entrada es informativa si el error estándar es 1/10 de la estimación. Entonces, en este caso, estamos bastante seguros de que la intercepción es importante.

  • Signif. Códigos : esta es una clave para el significado de cada uno: la entrada y la intercepción. Estos solo son correctos si solo ajusta un modelo a sus datos. (En otras palabras, son excelentes para los datos experimentales si desde el principio qué variables le interesan y no son tan informativos para el análisis de datos o la selección de variables).

    Espera, ¿por qué no podemos usar significación estadística? Puedes, simplemente no lo recomendaría en general. En ciencia de datos, a menudo ajustará múltiples modelos utilizando el mismo conjunto de datos para intentar elegir el mejor modelo. Si alguna vez ejecuta más de una prueba de significación estadística en el mismo conjunto de datos, debe ajustar su valor p para compensarlo. Puede pensarlo de esta manera: si decide que aceptará resultados que están por debajo de p = 0.05, básicamente está diciendo que está de acuerdo con equivocarse en veinte veces. Sin embargo, si hace cinco pruebas, y para cada una hay una probabilidad de 1/20 de que se equivoque, ahora tiene una probabilidad de 1/4 de haberse equivocado en al menos una de esas pruebas ... pero usted No sé cuál. Puedes corregirlo (al multiplicar el valor p que aceptará como significativo por el número de pruebas que realizará ), pero en la práctica creo que generalmente es más fácil evitar el uso de valores p por completo.

(El parámetro de dispersión para la familia binomial se considera 1): solo verá esto para la regresión de Poisson y binomial (logística). Solo le informa que se ha agregado un parámetro de escala adicional para ayudar a ajustar el modelo. Puedes ignorarlo.

Desviación nula: la desviación nula nos dice qué tan bien podemos predecir nuestra salida solo usando la intercepción. Más pequeño es mejor.

Desviación residual: la desviación residual nos dice qué tan bien podemos predecir nuestra salida utilizando la intercepción y nuestras entradas. Más pequeño es mejor. Cuanto mayor es la diferencia entre la desviación nula y la desviación residual, más útiles fueron nuestras variables de entrada para predecir la variable de salida.

AIC: El AIC es el "criterio de información de Akaike" y es una estimación de qué tan bien su modelo describe los patrones en sus datos. Se utiliza principalmente para comparar modelos entrenados en el mismo conjunto de datos. Si necesita elegir entre modelos, el modelo con el AIC más bajo está haciendo un mejor trabajo al describir la variación en los datos.

Número de iteraciones de puntuación de Fisher: esto es solo una medida del tiempo que tardó en adaptarse a su modelo. Puedes ignorarlo con seguridad.

Sugiero este toturial para aprender más. https://www.kaggle.com/rtatman/regression-challenge-day-5

parvij
fuente