Una forma de encontrar la precisión del modelo de regresión logística usando 'glm' es encontrar el gráfico AUC. ¿Cómo verificar lo mismo para el modelo de regresión encontrado con la variable de respuesta continua (familia = 'gaussiano')?
¿Qué métodos se utilizan para verificar qué tan bien se ajusta mi modelo de regresión a los datos?
r
regression
generalized-linear-model
usuario1140126
fuente
fuente
r-squared
etiqueta y lagoodness-of-fit
etiqueta ..Respuestas:
Sugeriría una breve búsqueda en " diagnóstico de modelo de regresión lineal " como comienzo. Pero aquí hay algunos que sugeriría que revise:
Asegúrese de que los supuestos se cumplan satisfactoriamente
Use el diagrama de dispersión o el componente más el gráfico residual para examinar la relación lineal entre los predictores independientes y la variable dependiente.
Componga una gráfica con un valor residual estándar versus un valor pronosticado y asegúrese de que no haya un punto extremo con un residuo muy alto, y que la dispersión del residuo sea muy similar a lo largo del valor pronosticado, y que se extienda en gran medida por igual y por debajo de la media del residuo, cero.
También puede cambiar el eje y a residual . Este gráfico ayuda a identificar la varianza desigual.2
Vuelva a examinar el diseño del estudio para garantizar que el supuesto de independencia sea razonable.
Recupere el factor de inflación de varianza (VIF) o las estadísticas de tolerancia para examinar la posible colinealidad.
Examinar los puntos influyentes potenciales
Examine el cambio en las estadísticas y ajustadasR2 R2
Verificar la interacción necesaria
Aplique su modelo a otro conjunto de datos y verifique su rendimiento.
fuente
plot.lm
puede darle la mayoría de los gráficos de diagnóstico que Penguin_Knight menciona.Me gusta validar de forma cruzada mis modelos de regresión para ver qué tan bien se generalizan a los nuevos datos. Mi métrica de elección es el error absoluto medio en los datos con validación cruzada, pero el error cuadrático medio es más común e igualmente útil.
No creo que R2 sea una buena métrica de qué tan bien su modelo se ajusta a los datos de entrenamiento, ya que casi cualquier métrica de error calculada en los datos de entrenamiento será propensa a un ajuste excesivo. Si debe calcular R2 en el conjunto de entrenamiento, sugiero usar R2 ajustado .
fuente
Puede usar para examinar qué tan bien su modelo se ajusta a los datos de entrenamiento. Esto le dirá qué porcentaje de la varianza en los datos se explica por el modelo.R2
Sugiero usar RMSE (error cuadrático medio) de sus predicciones en su conjunto de prueba en comparación con el valor real. Este es un método estándar para informar el error de predicción de una variable continua.
fuente
Estoy acostumbrado a verificar la forma funcional de mi estimador de parámetros trazando una estimación no paramétrica (por ejemplo, una regresión del núcleo) o semi-paramétrica y comparándola con la curva paramétrica ajustada. Creo que este es el primer paso, a menudo más rápido (y quizás más perspicaz) que incluir términos de interacción o términos de órdenes superiores.
El paquete R np proporciona muchas funciones agradables no paramétricas y semiparamétricas, y su viñeta está bien escrita: http://cran.r-project.org/web/packages/np/vignettes/np.pdf
fuente