Al responder a esta pregunta, John Christie sugirió que el ajuste de los modelos de regresión logística debería evaluarse evaluando los residuos. Estoy familiarizado con la forma de interpretar los residuos en OLS, están en la misma escala que el DV y muy claramente la diferencia entre y e y predicho por el modelo. Sin embargo, para la regresión logística, en el pasado, por lo general, solo examinaba las estimaciones del ajuste del modelo, por ejemplo, AIC, porque no estaba seguro de lo que significaría un residuo para una regresión logística. Después de mirar un poco los archivos de ayuda de R, veo que en R hay cinco tipos de residuos de glm disponibles c("deviance", "pearson", "working","response", "partial")
. El archivo de ayuda se refiere a:
- Davison, AC y Snell, EJ (1991) Residuos y diagnósticos. En: Teoría estadística y modelización. En honor de Sir David Cox, FRS , eds. Hinkley, DV, Reid, N. y Snell, EJ, Chapman & Hall.
No tengo una copia de eso. ¿Hay alguna forma breve de describir cómo interpretar cada uno de estos tipos? En un contexto logístico, ¿la suma de los residuos cuadrados proporcionará una medida significativa del ajuste del modelo o es mejor con un criterio de información?
binnedplot
función en el brazo del paquete R da una gráfica muy útil de los residuos. Se describe muy bien en las páginas 97-101 de Gelman y Hill 2007 .Respuestas:
Los residuos más fáciles de entender son los residuales de desviación, ya que al cuadrado estos suman -2 veces la probabilidad logarítmica. En sus términos más simples, la regresión logística se puede entender en términos de ajuste de la función para conocido de tal manera que se minimice la desviación total, que es la suma de residuos de desviación al cuadrado de todos los puntos de datos.p=logit−1(Xβ) X
La desviación (al cuadrado) de cada punto de datos es igual a (-2 veces) el logaritmo de la diferencia entre su probabilidad predicha y el complemento de su valor real (1 para un control; un 0 para un caso) en términos absolutos. Un ajuste perfecto de un punto (que nunca ocurre) da una desviación de cero ya que log (1) es cero. Un punto mal ajustado tiene una gran desviación residual, ya que -2 veces el logaritmo de un valor muy pequeño es un número grande.logit−1(Xβ)
Hacer una regresión logística es similar a encontrar un valor beta tal que la suma de los residuos de desviación al cuadrado se minimice.
Esto se puede ilustrar con una trama, pero no sé cómo cargar uno.
fuente
plogit
? No estaba claro si lo estabas definiendo aquí o si lo obtenías de otro lado.plogit
está en R (estadísticas), no se requiere paquete (al menos ya no)En los residuos de Pearson,
El residual de Pearson es la diferencia entre las probabilidades observadas y estimadas dividida por la desviación estándar binomial de la probabilidad estimada. Por lo tanto, estandarizando los residuos. Para muestras grandes, los residuos estandarizados deben tener una distribución normal.
De Menard, Scott (2002). Análisis de regresión logística aplicada, 2ª edición. Thousand Oaks, CA: Publicaciones sabias. Serie: Aplicaciones cuantitativas en las ciencias sociales, No. 106. Primera edición, 1995. Ver Capítulo 4.4.
fuente
Los residuos de trabajo son los residuos en la iteración final de cualquier método de mínimos cuadrados ponderado iterativamente . Creo que eso significa los residuos cuando pensamos que es la última iteración de nuestro funcionamiento del modelo. Eso puede dar lugar a la discusión de que la ejecución del modelo es un ejercicio iterativo.
fuente