Elegir el mejor modelo entre diferentes "mejores" modelos

28

¿Cómo se elige un modelo entre los diferentes modelos elegidos por diferentes métodos (por ejemplo, selección hacia atrás o hacia adelante)?

Además, ¿qué es un modelo parsimonioso?

regression model-selection tom
fuente

He editado el título para (con suerte) aclarar su punto.

39

Un modelo parsimonioso es un modelo que logra un nivel deseado de explicación o predicción con la menor cantidad posible de variables predictoras.

Para la evaluación del modelo, existen diferentes métodos según lo que desee saber. En general, hay dos formas de evaluar un modelo: en función de las predicciones y de la bondad de ajuste en los datos actuales. En el primer caso, desea saber si su modelo predice adecuadamente nuevos datos, en el segundo, desea saber si su modelo describe adecuadamente las relaciones en sus datos actuales. Esas son dos cosas diferentes.

Evaluación basada en predicciones

La mejor manera de evaluar los modelos utilizados para la predicción es la validación cruzada. Muy brevemente, corta su conjunto de datos, por ejemplo. 10 piezas diferentes, use 9 de ellas para construir el modelo y predecir los resultados para el décimo conjunto de datos. Una simple diferencia cuadrática media entre los valores observados y los pronosticados le da una medida de la precisión de la predicción. Cuando repite esto diez veces, calcula la diferencia cuadrática media sobre las diez iteraciones para llegar a un valor general con una desviación estándar. Esto le permite nuevamente comparar dos modelos en su precisión de predicción utilizando técnicas estadísticas estándar (prueba t o ANOVA).

Una variante del tema es el criterio de PRENSA (Suma de predicción de cuadrados), definido como

$\displaystyle\sum^{n}_{i=1} \left(Y_i - \hat{Y}_{i(-i)}\right)^2$

Donde es el valor predicho para la i-ésima observación usando un modelo basado en todas las observaciones menos el i-ésimo valor. Este criterio es especialmente útil si no tiene muchos datos. En ese caso, dividir sus datos como en el enfoque de validación cruzada podría dar como resultado subconjuntos de datos que son demasiado pequeños para un ajuste estable. $\hat{Y}_{i(-i)}$

Evaluación basada en la bondad de ajuste

Permítanme decir primero que esto realmente difiere dependiendo del marco de modelo que use. Por ejemplo, una prueba de razón de verosimilitud puede funcionar para modelos mixtos aditivos generalizados cuando se usa el gaussiano clásico para los errores, pero no tiene sentido en el caso de la variante binomial.

Primero tiene los métodos más intuitivos para comparar modelos. Puede utilizar el Criterio de información de Aikake (AIC) o el Criterio de información bayesiano (BIC) para comparar la bondad de ajuste para dos modelos. Pero nada te dice que ambos modelos realmente difieren.

Otro es el criterio de Cp de Mallow. Esto esencialmente busca posibles sesgos en su modelo, comparando el modelo con todos los submodelos posibles (o una selección cuidadosa de ellos). Ver también http://www.public.iastate.edu/~mervyn/stat401/Other/mallows.pdf

Si los modelos que desea comparar son modelos anidados (es decir, todos los predictores e interacciones del modelo más parsimonioso se producen también en el modelo más completo), puede usar una comparación formal en forma de una prueba de razón de probabilidad (o un Chi-cuadrado o una prueba F en los casos apropiados, por ejemplo, cuando se comparan modelos lineales simples ajustados con mínimos cuadrados). Esta prueba controla esencialmente si los predictores o interacciones adicionales realmente mejoran el modelo. Este criterio se usa a menudo en métodos progresivos hacia adelante o hacia atrás.

Acerca de la selección automática de modelo

Tienes defensores y tienes enemigos de este método. Personalmente, no estoy a favor de la selección automática de modelos, especialmente cuando se trata de describir modelos, y esto por varias razones:

En cada modelo, debería haber comprobado que trata adecuadamente con la confusión. De hecho, muchos conjuntos de datos tienen variables que nunca deben colocarse en un modelo al mismo tiempo. A menudo la gente olvida controlar por eso.
La selección automática de modelos es un método para crear hipótesis, no para probarlas. Todas las inferencias basadas en modelos que se originan en la selección automática de modelos no son válidas. No hay forma de cambiar eso.
He visto muchos casos en los que al comenzar en un punto de partida diferente, una selección por pasos devolvió un modelo completamente diferente. Estos métodos están lejos de ser estables.
También es difícil incorporar una regla decente, ya que las pruebas estadísticas para comparar dos modelos requieren que los modelos estén anidados. Si utiliza, por ejemplo, AIC, BIC o PRESS, se elige arbitrariamente el límite para cuando una diferencia es realmente importante.

Básicamente, veo más en comparar un conjunto selecto de modelos elegidos de antemano. Si no le importa la evaluación estadística del modelo y las pruebas de hipótesis, puede usar la validación cruzada para comparar la precisión predictiva de sus modelos.

Pero si realmente busca la selección de variables con fines predictivos, es posible que desee consultar otros métodos para la selección de variables, como Máquinas de vectores de soporte, Redes neuronales, Bosques aleatorios y similares. Estos se usan mucho más a menudo en, por ejemplo, medicina para averiguar cuál de las mil proteínas medidas puede predecir adecuadamente si tiene cáncer o no. Solo para dar un ejemplo (famoso):

http://www.nature.com/nm/journal/v7/n6/abs/nm0601_673.html

http://www.springerlink.com/content/w68424066825vr3l/

Todos estos métodos tienen variantes de regresión para datos continuos también.

Joris Meys
fuente

¿Qué modelo elegirías entre Mallows Cp y selección hacia atrás? ¿También son buenos los modelos con SSE bajo y coeficientes significativos?

tom

2

@tom: estás comparando manzanas con naranjas. la selección hacia atrás es un método, Mallows Cp es un criterio. El Cp de Mallow se puede usar como criterio para la selección hacia atrás. Y como puedes leer, no hago selección hacia atrás. Si necesito seleccionar variables, uso métodos apropiados para eso. No mencioné los métodos LASSO y LAR a los que se refería Peter Flom, pero definitivamente también vale la pena intentarlo.

Joris Meys

@Jons Mays: supongamos que elijo el modelo con el Cp de Mallows más bajo (que tiene variables predictoras ). Luego uso la selección hacia atrás para obtener otro modelo (con variables predictoras ). ¿Elegiría el que tenga la menor cantidad de variables si el propósito es la parsimonia?

x

$x$

x - 1

$x-1$

Tom

2

@FrankHarrell, una pequeña simulación puede demostrar que la correlación entre los valores p (suponiendo que esté hablando de la prueba F o equivalente) y el AIC es inexistente (0.01 en mi simulación). Entonces no, no hay relación entre los valores P y el AIC. Lo mismo para BIC y Cp. Otra pequeña simulación también demostrará que uno obtiene resultados bastante diferentes en un procedimiento paso a paso, dependiendo del criterio que utilice. Entonces no: Cp, AIC, BIC no son en modo alguno transformaciones de valores P. De hecho, si observa las fórmulas, no puedo señalar un enlace matemático o una transformación.

Joris Meys

1

@FrankHarrell, lo que no significa que yo esté abogando por profesionales, por el contrario. Pero su declaración al menos está formulada un poco fuerte.

Joris Meys

20

La parsimonia es tu enemigo. La naturaleza no actúa de manera parsimone, y los conjuntos de datos no tienen suficiente información para permitirle elegir las variables "correctas". No importa mucho qué método use o qué índice use como regla de detención. La selección variable sin contracción está casi condenada. Sin embargo, la reducción hacia atrás limitada (con ) a veces puede ser útil. Funciona simplemente porque no eliminará muchas variables. $\alpha=0.50$

Frank Harrell
fuente

La pregunta no es acerca de pasos, sino de seleccionar el mejor modelo entre los resultados de diferentes enfoques ...

Joris Meys

44

Me gusta mucho "la parsimonia es tu enemigo".

Peter Flom - Restablece a Monica

1

Gracias Peter Joris: seleccionar entre diferentes enfoques difiere un poco de la selección por pasos, pero no mucho.

Frank Harrell

16

Usar la selección hacia atrás o hacia adelante es una estrategia común, pero no puedo recomendarla. Los resultados de tal construcción de modelos están todos equivocados. Los valores p son demasiado bajos, los coeficientes se desvían de 0 y hay otros problemas relacionados.

Si debe hacer una selección automática de variables, le recomendaría usar un método más moderno, como LASSO o LAR.

Escribí una presentación SAS sobre esto, titulada "Detener paso a paso: por qué los pasos y métodos similares son malos y qué debe usar"

Pero, si es posible, evitaría estos métodos automatizados por completo y confiaría en la experiencia en la materia. Una idea es generar aproximadamente 10 modelos razonables y compararlos en función de un criterio de información. @Nick Sabbe enumeró varios de estos en su respuesta.

Peter Flom - Restablece a Monica
fuente

2

+1 para la referencia del artículo. Aunque no codifico en SAS, lo leí hace varios meses y descubrí que es un buen tratamiento de alto nivel para el problema.

Josh Hemann

11

La respuesta a esto dependerá en gran medida de su objetivo. Puede estar buscando coeficientes estadísticamente significativos, o puede evitar evitar tantas clasificaciones erróneas como sea posible al predecir el resultado de nuevas observaciones, o simplemente puede estar interesado en el modelo con la menor cantidad de falsos positivos; tal vez simplemente desee la curva que está "más cerca" de los datos.

En cualquiera de los casos anteriores, necesita algún tipo de medida para lo que está buscando. Algunas medidas populares con diferentes aplicaciones son AUC, BIC, AIC, error residual, ...

Usted calcula la medida que mejor se ajusta a su objetivo para cada modelo y luego compara los "puntajes" para cada modelo. Esto lleva al mejor modelo para su objetivo.

Algunas de estas medidas (p. Ej., AIC) ponen un énfasis adicional en la cantidad de coeficientes distintos de cero en el modelo, ya que usar demasiados podría ser simplemente sobreajustar los datos (de modo que el modelo es inútil si lo usa para nuevos datos, y mucho menos para la población). Puede haber otras razones para requerir que un modelo contenga variables "lo menos posible", por ejemplo, si es simplemente costoso medirlas todas para la predicción. La 'simplicidad de' o 'pequeño número de variables en' un modelo generalmente se conoce como su parsimonia.

En resumen, un modelo parsimoneous es un modelo 'simple', que no contiene demasiadas variables.

Como a menudo con este tipo de preguntas, lo remitiré al excelente libro Elementos de aprendizaje estadístico para obtener información más detallada sobre el tema y temas relacionados.

Nick Sabbe
fuente

1

Buen libro que recomiendas allí. Otro que podría recomendar es Modelos estadísticos lineales aplicados que contiene algunas secciones sobre criterios de selección, selección de modelos y comparación de modelos.

Joris Meys

-1

La discusión aquí me pareció interesante, especialmente el debate entre Parsimonious y Model con más número de coeficientes y variables.

Mi prof. El difunto Dr. Steve solía enfatizar en un modelo parsimonioso con un R ^ 2 bajo en comparación con otro modelo con mejores ajustes / R ^ 2 grande.

Gracias por todos los peces aquí!

Akash

Akash Sondhi - Modelador novato
fuente

Elegir el mejor modelo entre diferentes "mejores" modelos

Respuestas:

Evaluación basada en predicciones

Evaluación basada en la bondad de ajuste

Acerca de la selección automática de modelo