Cómo verificar si mi modelo de regresión es bueno

10

Una forma de encontrar la precisión del modelo de regresión logística usando 'glm' es encontrar el gráfico AUC. ¿Cómo verificar lo mismo para el modelo de regresión encontrado con la variable de respuesta continua (familia = 'gaussiano')?

¿Qué métodos se utilizan para verificar qué tan bien se ajusta mi modelo de regresión a los datos?

usuario1140126
fuente
Es posible que desee echar un vistazo a la r-squaredetiqueta y la goodness-of-fitetiqueta ..
Macro
2
La familia "gaussiana" con un enlace lineal es simplemente regresión de mínimos cuadrados ordinarios (MCO); Los métodos para verificar tales ajustes probablemente se analizan en miles de preguntas en este sitio (no exagero).
whuber
Este hilo es relevante: stats.stackexchange.com/q/414349/121522
mkt - Restablecer Monica

Respuestas:

15

Sugeriría una breve búsqueda en " diagnóstico de modelo de regresión lineal " como comienzo. Pero aquí hay algunos que sugeriría que revise:

Asegúrese de que los supuestos se cumplan satisfactoriamente

  • Use el diagrama de dispersión o el componente más el gráfico residual para examinar la relación lineal entre los predictores independientes y la variable dependiente.

  • Componga una gráfica con un valor residual estándar versus un valor pronosticado y asegúrese de que no haya un punto extremo con un residuo muy alto, y que la dispersión del residuo sea muy similar a lo largo del valor pronosticado, y que se extienda en gran medida por igual y por debajo de la media del residuo, cero.

  • También puede cambiar el eje y a residual . Este gráfico ayuda a identificar la varianza desigual.2

  • Vuelva a examinar el diseño del estudio para garantizar que el supuesto de independencia sea razonable.

  • Recupere el factor de inflación de varianza (VIF) o las estadísticas de tolerancia para examinar la posible colinealidad.

Examinar los puntos influyentes potenciales

  • Verifique estadísticas como Cook's D, DFits o DF Beta para averiguar si cierto punto de datos está cambiando drásticamente sus resultados de regresión. Puedes encontrar más aquí .

Examine el cambio en las estadísticas y ajustadasR2R2

  • Siendo la razón de la suma de cuadrados de regresión a la suma total de cuadrados, puede decirle cuánto% de variabilidad en su variable dependiente explica el modelo.R2
  • ajustado se puede usar para verificar si la suma adicional de cuadrados provocó mi (s) predictor (es) adicional (es) realmente vale la pena los grados de libertad que tomarán.R2

Verificar la interacción necesaria

  • Si hay un predictor independiente principal, antes de realizar cualquier interpretación de su efecto independiente, verifique si está interactuando con otras variables independientes. La interacción, si no se ajusta, puede sesgar su estimación.

Aplique su modelo a otro conjunto de datos y verifique su rendimiento.

  • También puede aplicar la fórmula de regresión a otros datos separados y ver qué tan bien predice. Los gráficos como el diagrama de dispersión y las estadísticas como% de diferencia del valor observado pueden servir como un buen comienzo.
Penguin_Knight
fuente
2
(+1): ¡Respuesta muy completa! Si está utilizando R, plot.lmpuede darle la mayoría de los gráficos de diagnóstico que Penguin_Knight menciona.
Zach
4

Me gusta validar de forma cruzada mis modelos de regresión para ver qué tan bien se generalizan a los nuevos datos. Mi métrica de elección es el error absoluto medio en los datos con validación cruzada, pero el error cuadrático medio es más común e igualmente útil.

No creo que R2 sea una buena métrica de qué tan bien su modelo se ajusta a los datos de entrenamiento, ya que casi cualquier métrica de error calculada en los datos de entrenamiento será propensa a un ajuste excesivo. Si debe calcular R2 en el conjunto de entrenamiento, sugiero usar R2 ajustado .

Zach
fuente
1

Puede usar para examinar qué tan bien su modelo se ajusta a los datos de entrenamiento. Esto le dirá qué porcentaje de la varianza en los datos se explica por el modelo.R2

Sugiero usar RMSE (error cuadrático medio) de sus predicciones en su conjunto de prueba en comparación con el valor real. Este es un método estándar para informar el error de predicción de una variable continua.

BGreene
fuente
1
@Macro Pero la pregunta originalmente pedía una métrica de rendimiento para una Regresión OLS con errores gaussianos. Viene de una regresión logística.
Erik
@ Erik, gracias, leí mal. De todos modos, con respecto a la primera parte, no creo que , de forma aislada, pueda usarse para "verificar si mi modelo de regresión es bueno", para usar las palabras del OP. Su modelo podría fallar miserablemente para predecir efectivamente en la gran mayoría de los datos mientras aún tiene un alto . Vea aquí un ejemplo: en el ejemplo (1), casi no hay poder predictivo, pero sigue siendo alto. R2R2R2
Macro
@Macro, estoy de acuerdo con sus comentarios, pero buscaba una explicación simple para
dirigir
0

Estoy acostumbrado a verificar la forma funcional de mi estimador de parámetros trazando una estimación no paramétrica (por ejemplo, una regresión del núcleo) o semi-paramétrica y comparándola con la curva paramétrica ajustada. Creo que este es el primer paso, a menudo más rápido (y quizás más perspicaz) que incluir términos de interacción o términos de órdenes superiores.

El paquete R np proporciona muchas funciones agradables no paramétricas y semiparamétricas, y su viñeta está bien escrita: http://cran.r-project.org/web/packages/np/vignettes/np.pdf

Arne Jonas Warnke
fuente