Estoy llevando a cabo una regresión logística con variables independientes y observaciones. Estoy evaluando el ajuste del modelo para determinar si los datos cumplen con los supuestos del modelo y he producido la siguiente gráfica residual agrupada usando el paquete:arm
R
Obviamente, hay algunas malas señales en esta trama: muchos puntos quedan fuera de las bandas de confianza y hay un patrón distintivo en los residuos. Mi pregunta es: ¿puedo adjuntar estos problemas a supuestos específicos del modelo de regresión logística? Por ejemplo, ¿puedo decir que hay evidencia de no linealidad en las variables independientes o de heterocedasticidad? Si no, ¿hay otros diagnósticos que pueda producir para ayudar a identificar dónde radica el problema?
Según la respuesta de Daniel, parece que el problema principal es que estaba usando residuos en la escala logit pero valores esperados en la escala de respuesta. Si reproduzco la trama con los residuos también en la escala de respuesta, se ve así:
lo cual es mucho más creíble.
fuente
Respuestas:
O estoy malinterpretando su argumento o hay algún problema. El hecho de que tenga residuos negativos para cerca de 0 valores esperados implica que su modelo predice un valor negativo. Esto no debería ser posible para los modelos de regresión logística que solo predicen en el intervalo (0, 1), a menos que esté utilizando la salida de log-odds del modelo, en cuyo caso el error residual no debe estar definido. Como la regresión logística es un método de clasificación, es más útil mirar primero la matriz de confusión. También debe especificar si el gráfico se basa en los datos del tren o en un conjunto de pruebas separado.
fuente