Soy bastante nuevo en esto con las pruebas de datos binomiales, pero necesitaba hacer una y ahora no estoy seguro de cómo interpretar el resultado. La variable y, la variable de respuesta, es binomial y los factores explicativos son continuos. Esto es lo que obtuve al resumir el resultado:
glm(formula = leaves.presence ~ Area, family = binomial, data = n)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
leaves.presence 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
Hay varias cosas que no entiendo aquí, ¿qué dice esto realmente?
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
leaves.presence 0.0008166 0.0002472 3.303 0.000956 ***
¿Y qué significan las iteraciones AIC y Number of Fisher Scoring?
> fit
Call: glm(formula = Lövförekomst ~ Areal, family = binomial, data = n)
Coefficients:
(Intercept) Areal
-0.3877697 0.0008166
Degrees of Freedom: 12237 Total (i.e. Null); 12236 Residual
(314 observations deleted due to missingness)
Null Deviance: 16660
Residual Deviance: 16650 AIC: 16650
Y aquí, ¿qué significa esto:
Coefficients:
(Intercept) Areal
-0.3877697 0.0008166
r
regression
logistic
binomial
interpretation
usuario40116
fuente
fuente
Respuestas:
Lo que has hecho es la regresión logística . Esto se puede hacer básicamente en cualquier software estadístico, y el resultado será similar (al menos en contenido, aunque la presentación puede diferir). Hay una guía de regresión logística con R en el excelente sitio web de ayuda de estadísticas de UCLA. Si no está familiarizado con esto, mi respuesta aquí: diferencia entre los modelos logit y probit puede ayudarlo a comprender de qué se trata LR (aunque está escrito en un contexto diferente).
Parece que tienes dos modelos presentados, principalmente me enfocaré en el mejor. Además, parece que ha habido un error al copiar y pegar el modelo o la salida, por lo que cambiaré
leaves.presence
conArea
la salida para que sea coherente con el modelo. Aquí está el modelo al que me refiero (observe que agregué(link="logit")
, lo que está implícito enfamily=binomial
; vea ? Glm y ? Family ):Veamos esta salida (observe que cambié el nombre de la variable en la segunda línea debajo
Coefficients
):Así como hay residuos en la regresión lineal (MCO), puede haber residuos en la regresión logística y otros modelos lineales generalizados. Sin embargo, son más complicados cuando la variable de respuesta no es continua. Los GLiM pueden tener cinco tipos diferentes de residuos, pero lo que viene en la lista estándar son los residuos de desviación. (La desviación y los residuos de desviación son más avanzados, así que seré breve aquí; si esta discusión es algo difícil de seguir, no me preocuparía demasiado, puede omitirla):
Para cada punto de datos utilizado en su modelo, se calcula la desviación asociada con ese punto. Una vez hecho esto para cada punto, tiene un conjunto de tales residuos, y el resultado anterior es simplemente una descripción no paramétrica de su distribución.
A continuación, vemos la información sobre las covariables, que es lo que la gente suele interesar principalmente:
Para un modelo de regresión logística simple como este, solo hay una covariable (0 0 está justo arriba en la primera fila. (Si no está lo suficientemente familiarizado con las probabilidades de registro, puede ayudarlo leer mi respuesta aquí: interpretación de predicciones simples a razones de probabilidades en la regresión logística .) En la siguiente columna, vemos el error estándar asociado con estas estimaciones. Es decir, son una estimación de cuánto, en promedio, estas estimaciones rebotarían si el estudio se volviera a ejecutar de forma idéntica, pero con nuevos datos, una y otra vez. (Si no está muy familiarizado con la idea de un error estándar, puede serle útil leer mi respuesta aquí: cómo interpretar los errores estándar de coeficientes en la regresión lineal ). Si dividiéramos la estimación por el error estándar, obtendríamos un cociente que se supone que normalmente se distribuye con muestras suficientemente grandes. Este valor se enumera en debajo
Area
aquí) y la intercepción (también a veces llamada 'constante'). Si tuviera una regresión logística múltiple, habría covariables adicionales enumeradas debajo de estas, pero la interpretación de la salida sería la misma. DebajoEstimate
de la segunda fila está el coeficiente asociado con la variable listada a la izquierda. Es la cantidad estimada por la cual las probabilidades de registroleaves.presence
aumentarían siArea
fuera una unidad más alta. Las probabilidades de registro deleaves.presence
cuándoArea
esz value
. A continuaciónPr(>|z|)
se enumeran los valores p de dos colas que corresponden a esos valores z en una distribución normal estándar. Por último, están las estrellas de importancia tradicionales (y tenga en cuenta la clave debajo de la tabla de coeficientes).La
Dispersion
línea se imprime de forma predeterminada con GLiM, pero no agrega mucha información aquí (es más importante con los modelos de conteo, por ejemplo). Podemos ignorar esto.Por último, obtenemos información sobre el modelo y su bondad de ajuste:
La línea sobre a
missingness
menudo falta, um. Se manifiesta aquí, ya que tenía 314 observaciones para las cuales ya sealeaves.presence
,Area
o ambos habían desaparecido. Esas observaciones parciales no se utilizaron para ajustar el modelo.ElF -test que viene con un modelo de regresión lineal múltiple. Como solo tiene una covariable, esta prueba no sería interesante en este caso.
Residual deviance
es una medida de la falta de ajuste de su modelo tomado como un todo, mientras que laNull deviance
es una medida de este tipo para un modelo reducido que sólo incluye la intersección. Observe que los grados de libertad asociados con estos dos difieren solo en uno. Como su modelo tiene solo una covariable, solo se ha estimado un parámetro adicional (elEstimate
forArea
) y, por lo tanto, solo se ha consumido un grado adicional de libertad. Estos dos valores se pueden usar para realizar una prueba del modelo como un todo, lo que sería análogo al globalEl AIC es otra medida de bondad de ajuste que tiene en cuenta la capacidad del modelo para ajustar los datos. Esto es muy útil cuando se comparan dos modelos en los que uno puede ajustarse mejor, pero quizás solo en virtud de ser más flexible y, por lo tanto, más capaz de ajustar cualquier información. Como solo tiene un modelo, esto no es informativo.
La referencia a
Fisher scoring iterations
tiene que ver con cómo se estimó el modelo. Un modelo lineal puede ajustarse resolviendo ecuaciones de forma cerrada. Desafortunadamente, eso no se puede hacer con la mayoría de los GLiM, incluida la regresión logística. En cambio, se utiliza un enfoque iterativo (el algoritmo de Newton-Raphson por defecto). En términos generales, el modelo se ajusta basándose en una suposición sobre cuáles podrían ser las estimaciones. Luego, el algoritmo mira a su alrededor para ver si el ajuste se mejoraría mediante el uso de diferentes estimaciones. Si es así, se mueve en esa dirección (digamos, usando un valor más alto para la estimación) y luego se ajusta nuevamente al modelo. El algoritmo se detiene cuando no percibe que moverse de nuevo produciría muchas mejoras adicionales. Esta línea le indica cuántas iteraciones hubo antes de que el proceso se detuviera y mostrara los resultados.Con respecto al segundo modelo y salida que enumera, esta es solo una forma diferente de mostrar los resultados. Específicamente, estos
son el mismo tipo de estimaciones discutidas anteriormente (aunque de un modelo diferente y presentado con menos información complementaria).
fuente
Llamada : esta es solo la llamada que realizó a la función. Será exactamente el mismo código que escribió en R. Esto puede ser útil para ver si cometió algún error tipográfico.
(Desviación) Residuos: puede ignorarlos para la regresión logística. Para Poisson o regresión lineal, desea que estos se distribuyan más o menos normalmente (que es lo mismo que los dos gráficos de diagnóstico principales están comprobando). Puede verificar esto al ver si el valor absoluto de 1Q y 3Q están cerca (ish) entre sí, y si la mediana está cerca de 0. La media no se muestra porque siempre es 0. Si alguno de estos está súper apagado, entonces probablemente tengas algún sesgo extraño en tus datos. (¡Esto también aparecerá en sus diagramas de diagnóstico!)
Coeficientes : esta es la carne de la producción.
Intercepción : para Poisson y la regresión lineal, esta es la salida pronosticada cuando todas nuestras entradas son 0. Para la regresión logística, este valor estará más lejos de 0 cuanto mayor sea la diferencia entre el número de observación en cada clase. El error estándar representa cuán inseguros estamos sobre esto (más bajo es mejor). En este caso, debido a que nuestra intersección está lejos de 0 y nuestro error estándar es mucho más pequeño que la intersección, podemos estar bastante seguros de que una de nuestras clases (falló o no falló) tiene muchas más observaciones. (¡En este caso es "no falló", afortunadamente!)
Diversas entradas (cada entrada estará en una línea diferente): esta estimación representa cuánto creemos que la salida cambiará cada vez que aumentemos esta entrada en 1. Cuanto mayor sea la estimación, mayor será el efecto de esta variable de entrada en la salida. El error estándar es cuán seguros estamos al respecto. Por lo general, podemos estar bastante seguros de que una entrada es informativa si el error estándar es 1/10 de la estimación. Entonces, en este caso, estamos bastante seguros de que la intercepción es importante.
Signif. Códigos : esta es una clave para el significado de cada uno: la entrada y la intercepción. Estos solo son correctos si solo ajusta un modelo a sus datos. (En otras palabras, son excelentes para los datos experimentales si desde el principio qué variables le interesan y no son tan informativos para el análisis de datos o la selección de variables).
Espera, ¿por qué no podemos usar significación estadística? Puedes, simplemente no lo recomendaría en general. En ciencia de datos, a menudo ajustará múltiples modelos utilizando el mismo conjunto de datos para intentar elegir el mejor modelo. Si alguna vez ejecuta más de una prueba de significación estadística en el mismo conjunto de datos, debe ajustar su valor p para compensarlo. Puede pensarlo de esta manera: si decide que aceptará resultados que están por debajo de p = 0.05, básicamente está diciendo que está de acuerdo con equivocarse en veinte veces. Sin embargo, si hace cinco pruebas, y para cada una hay una probabilidad de 1/20 de que se equivoque, ahora tiene una probabilidad de 1/4 de haberse equivocado en al menos una de esas pruebas ... pero usted No sé cuál. Puedes corregirlo (al multiplicar el valor p que aceptará como significativo por el número de pruebas que realizará ), pero en la práctica creo que generalmente es más fácil evitar el uso de valores p por completo.
(El parámetro de dispersión para la familia binomial se considera 1): solo verá esto para la regresión de Poisson y binomial (logística). Solo le informa que se ha agregado un parámetro de escala adicional para ayudar a ajustar el modelo. Puedes ignorarlo.
Desviación nula: la desviación nula nos dice qué tan bien podemos predecir nuestra salida solo usando la intercepción. Más pequeño es mejor.
Desviación residual: la desviación residual nos dice qué tan bien podemos predecir nuestra salida utilizando la intercepción y nuestras entradas. Más pequeño es mejor. Cuanto mayor es la diferencia entre la desviación nula y la desviación residual, más útiles fueron nuestras variables de entrada para predecir la variable de salida.
AIC: El AIC es el "criterio de información de Akaike" y es una estimación de qué tan bien su modelo describe los patrones en sus datos. Se utiliza principalmente para comparar modelos entrenados en el mismo conjunto de datos. Si necesita elegir entre modelos, el modelo con el AIC más bajo está haciendo un mejor trabajo al describir la variación en los datos.
Número de iteraciones de puntuación de Fisher: esto es solo una medida del tiempo que tardó en adaptarse a su modelo. Puedes ignorarlo con seguridad.
Sugiero este toturial para aprender más. https://www.kaggle.com/rtatman/regression-challenge-day-5
fuente