¿Qué significan los residuos en una regresión logística?

62

Al responder a esta pregunta, John Christie sugirió que el ajuste de los modelos de regresión logística debería evaluarse evaluando los residuos. Estoy familiarizado con la forma de interpretar los residuos en OLS, están en la misma escala que el DV y muy claramente la diferencia entre y e y predicho por el modelo. Sin embargo, para la regresión logística, en el pasado, por lo general, solo examinaba las estimaciones del ajuste del modelo, por ejemplo, AIC, porque no estaba seguro de lo que significaría un residuo para una regresión logística. Después de mirar un poco los archivos de ayuda de R, veo que en R hay cinco tipos de residuos de glm disponibles c("deviance", "pearson", "working","response", "partial"). El archivo de ayuda se refiere a:

No tengo una copia de eso. ¿Hay alguna forma breve de describir cómo interpretar cada uno de estos tipos? En un contexto logístico, ¿la suma de los residuos cuadrados proporcionará una medida significativa del ajuste del modelo o es mejor con un criterio de información?

russellpierce
fuente
2
Hay elementos de esta pregunta que quedan sin respuesta, por ejemplo, la naturaleza de los residuos "pearson", "de trabajo", "respuesta" y "parciales", pero por ahora aceptaré la respuesta de Thylacoleo.
russellpierce
Creo que la binnedplotfunción en el brazo del paquete R da una gráfica muy útil de los residuos. Se describe muy bien en las páginas 97-101 de Gelman y Hill 2007 .
conjugateprior
1
Una forma realmente fácil de verificar el ajuste del modelo es un gráfico de las proporciones observadas frente a las predichas. Pero esto no funcionará si tiene una regresión de Bernoulli (es decir, todas sus observaciones tienen combinaciones únicas de las variables independientes, de modo que ), porque solo verá una línea de ceros y unos. ni=1
probabilistico
Sí, por desgracia, generalmente estoy usando un DV de Bernoulli.
russellpierce
1
Consulte también Comprensión de glm $ residuales y resid (glm) en Desbordamiento de pila .
gung - Restablece a Monica

Respuestas:

32

Los residuos más fáciles de entender son los residuales de desviación, ya que al cuadrado estos suman -2 veces la probabilidad logarítmica. En sus términos más simples, la regresión logística se puede entender en términos de ajuste de la función para conocido de tal manera que se minimice la desviación total, que es la suma de residuos de desviación al cuadrado de todos los puntos de datos.p=logit1(Xβ)X

La desviación (al cuadrado) de cada punto de datos es igual a (-2 veces) el logaritmo de la diferencia entre su probabilidad predicha y el complemento de su valor real (1 para un control; un 0 para un caso) en términos absolutos. Un ajuste perfecto de un punto (que nunca ocurre) da una desviación de cero ya que log (1) es cero. Un punto mal ajustado tiene una gran desviación residual, ya que -2 veces el logaritmo de un valor muy pequeño es un número grande.logit1(Xβ)

Hacer una regresión logística es similar a encontrar un valor beta tal que la suma de los residuos de desviación al cuadrado se minimice.

Esto se puede ilustrar con una trama, pero no sé cómo cargar uno.

Tilacoleo
fuente
1
Imágenes de registro: utilice uno de los sitios gratuitos de alojamiento de imágenes (busque en google), suba la trama a ese sitio y vincúlelo aquí.
He corregido un error en mi respuesta original. Primero escribí p = logit (X beta). De hecho, la probabilidad pronosticada es el logit inverso de la combinación lineal, p = inv-logit (X beta). En R esto se calcula como p <-plogit (X beta), que es p = exp (X beta) / (1 + exp (X * beta)).
Thylacoleo
1
¿De qué paquete es R plogit? No estaba claro si lo estabas definiendo aquí o si lo obtenías de otro lado.
Amyunimus el
1
@Amyunimus plogitestá en R (estadísticas), no se requiere paquete (al menos ya no)
russellpierce
7

En los residuos de Pearson,

El residual de Pearson es la diferencia entre las probabilidades observadas y estimadas dividida por la desviación estándar binomial de la probabilidad estimada. Por lo tanto, estandarizando los residuos. Para muestras grandes, los residuos estandarizados deben tener una distribución normal.

De Menard, Scott (2002). Análisis de regresión logística aplicada, 2ª edición. Thousand Oaks, CA: Publicaciones sabias. Serie: Aplicaciones cuantitativas en las ciencias sociales, No. 106. Primera edición, 1995. Ver Capítulo 4.4.

tosonb1
fuente
8
Esto no es del todo correcto con muestras grandes. Es más bien que requiere grandes recuentos de células binomiales , o lo que es lo mismo, una gran cantidad de replicación de covariables. Los residuos de Pearson están lejos de estar normalmente distribuidos para cualquier observación donde . n i < 5nini<5
probabilityislogic
5

Los residuos de trabajo son los residuos en la iteración final de cualquier método de mínimos cuadrados ponderado iterativamente . Creo que eso significa los residuos cuando pensamos que es la última iteración de nuestro funcionamiento del modelo. Eso puede dar lugar a la discusión de que la ejecución del modelo es un ejercicio iterativo.

ayush biyani
fuente