Interpretación de un gráfico residual binned en regresión logística

8

Estoy llevando a cabo una regresión logística con variables independientes y observaciones. Estoy evaluando el ajuste del modelo para determinar si los datos cumplen con los supuestos del modelo y he producido la siguiente gráfica residual agrupada usando el paquete:24123,996arm R

ingrese la descripción de la imagen aquí

Obviamente, hay algunas malas señales en esta trama: muchos puntos quedan fuera de las bandas de confianza y hay un patrón distintivo en los residuos. Mi pregunta es: ¿puedo adjuntar estos problemas a supuestos específicos del modelo de regresión logística? Por ejemplo, ¿puedo decir que hay evidencia de no linealidad en las variables independientes o de heterocedasticidad? Si no, ¿hay otros diagnósticos que pueda producir para ayudar a identificar dónde radica el problema?


Según la respuesta de Daniel, parece que el problema principal es que estaba usando residuos en la escala logit pero valores esperados en la escala de respuesta. Si reproduzco la trama con los residuos también en la escala de respuesta, se ve así:

ingrese la descripción de la imagen aquí

lo cual es mucho más creíble.

M. Berk
fuente
1
Describa la teoría estadística que implica que dicha gráfica residual es útil.
Frank Harrell
@FrankHarrell Vea la discusión de la Figura 17 en Gelman et al (2000) "Verificaciones de diagnóstico para modelos de regresión de datos discretos utilizando simulaciones predictivas posteriores" - disponible aquí: stat.columbia.edu/~gelman/research/published/dogs.pdf . También la página 97 de Andrew Gelman y Jennifer Hill, Análisis de datos utilizando regresión y modelos multinivel / jerárquicos, Cambridge University Press
M. Berk
¿Puedes resumir qué es exactamente lo que intentas hacer con tales tramas? Para la regresión logística binaria no existe un supuesto de distribución, y para los supuestos de regresión, lo mejor es ajustar el modelo de manera flexible (splines de regresión, etc.) o usar trazados residuales parciales tradicionales.
Frank Harrell
@FrankHarrell He editado la pregunta para aclarar que estoy tratando de evaluar si los datos cumplen con los supuestos del modelo. Gracias por la introducción a las parcelas residuales parciales, creo que estas son exactamente lo que estoy buscando.
M. Berk

Respuestas:

4

O estoy malinterpretando su argumento o hay algún problema. El hecho de que tenga residuos negativos para cerca de 0 valores esperados implica que su modelo predice un valor negativo. Esto no debería ser posible para los modelos de regresión logística que solo predicen en el intervalo (0, 1), a menos que esté utilizando la salida de log-odds del modelo, en cuyo caso el error residual no debe estar definido. Como la regresión logística es un método de clasificación, es más útil mirar primero la matriz de confusión. También debe especificar si el gráfico se basa en los datos del tren o en un conjunto de pruebas separado.

Daniel Mahler
fuente
Creo que has identificado correctamente el problema. Tengo los residuos en la escala logit y los valores ajustados en la escala de respuesta (es decir, entre 0 y 1). He reproducido la trama con los residuos en la escala de respuesta y parece mucho más creíble.
M. Berk