Para la regresión lineal, podemos verificar las gráficas de diagnóstico (gráficas de residuos, gráficas QQ normales, etc.) para verificar si se violan los supuestos de la regresión lineal.
Para la regresión logística, tengo problemas para encontrar recursos que expliquen cómo diagnosticar el ajuste del modelo de regresión logística. Desenterrando algunas notas del curso para GLM, simplemente declara que verificar los residuos no es útil para realizar el diagnóstico de un ajuste de regresión logística.
Al mirar en Internet, también parece haber varios procedimientos de "diagnóstico", como verificar la desviación del modelo y realizar pruebas de ji cuadrado, pero otras fuentes afirman que esto es inapropiado y que debe realizar una bondad de ajuste de Hosmer-Lemeshow prueba. Luego encuentro otras fuentes que afirman que esta prueba puede ser altamente dependiente de las agrupaciones reales y los valores de corte (pueden no ser confiables).
Entonces, ¿cómo se debe diagnosticar el ajuste de regresión logística?
fuente
Respuestas:
Algunas de las técnicas más nuevas que he encontrado para evaluar el ajuste de los modelos de regresión logística provienen de revistas de ciencias políticas:
Ambas técnicas pretenden reemplazar las pruebas de bondad de ajuste (como Hosmer & Lemeshow) e identificar posibles especificaciones erróneas (en particular, la no linealidad en las variables incluidas en la ecuación). Estos son particularmente útiles ya que las medidas de ajuste R-cuadrado típicas son frecuentemente criticadas .
Los dos documentos anteriores utilizan las probabilidades pronosticadas frente a los resultados observados en las parcelas, evitando de alguna manera el problema poco claro de qué es un residuo en dichos modelos. Ejemplos de residuos podrían ser la contribución al logaritmo de probabilidad o los residuos de Pearson (aunque creo que hay muchos más). Otra medida que a menudo es de interés (aunque no residual) son las de DFBeta (la cantidad que una estimación de coeficiente cambia cuando se excluye una observación del modelo). Vea ejemplos en Stata para esta página de UCLA en Diagnósticos de regresión logística junto con otros posibles procedimientos de diagnóstico.
No lo tengo a la mano, pero creo que los modelos de regresión de J. Scott Long para variables dependientes categóricas y limitadas entra en detalles suficientes sobre todas estas diferentes medidas de diagnóstico de una manera simple.
fuente
La pregunta no estaba suficientemente motivada. Tiene que haber una razón para ejecutar diagnósticos del modelo, como
Excepto por verificar cosas que son ortogonales a la especificación de regresión algebraica (por ejemplo, examinar la distribución de residuos en modelos lineales ordinarios), el diagnóstico de modelos puede crear tantos problemas como se resuelven en mi opinión. Esto es especialmente cierto en el modelo logístico binario ya que no tiene un supuesto de distribución.
Por lo tanto, generalmente es mejor dedicar tiempo a especificar el modelo, especialmente para no asumir la linealidad de las variables que se consideran fuertes para las cuales ninguna evidencia previa sugiere linealidad. En algunas ocasiones, puede especificar previamente un modelo que debe ajustarse, por ejemplo, si el número de predictores es pequeño o si permite que todos los predictores sean no lineales y (correctamente) no asuman interacciones.
Cualquiera que sienta que los diagnósticos del modelo se pueden usar para cambiar el modelo debe ejecutar ese proceso dentro de un ciclo de arranque para estimar correctamente las incertidumbres inducidas del modelo.
fuente
Este hilo es bastante antiguo, pero pensé que sería útil agregar que, desde hace poco, puede usar el paquete DHARMa R para transformar los residuos de cualquier GL (M) M en un espacio estandarizado. Una vez hecho esto, puede evaluar / evaluar visualmente problemas residuales como desviaciones de la distribución, dependencia residual de un predictor, heterocedasticidad o autocorrelación de la manera normal. Consulte la viñeta del paquete para ver ejemplos prácticos, también otras preguntas sobre CV aquí y aquí .
fuente