AIC paso a paso: ¿existe controversia en torno a este tema?

He leído innumerables publicaciones en este sitio que están increíblemente en contra del uso de la selección gradual de variables usando cualquier tipo de criterio, ya sea basado en valores p, AIC, BIC, etc.

Entiendo por qué estos procedimientos son en general bastante pobres para la selección de variables. La publicación probablemente famosa de Gung aquí ilustra claramente por qué; en última instancia, estamos verificando una hipótesis en el mismo conjunto de datos que utilizamos para elaborar la hipótesis, que es solo dragado de datos. Además, los valores p se ven afectados por cantidades como la colinealidad y los valores atípicos, que sesgan los resultados, etc.

Sin embargo, últimamente he estado estudiando las predicciones de series de tiempo y me he encontrado con el respetado libro de texto de Hyndman en el que menciona aquí el uso de la selección por pasos para encontrar el orden óptimo de los modelos ARIMA en particular. De hecho, en el forecastpaquete en R, el conocido algoritmo conocido auto.arimapor defecto usa la selección por pasos (con AIC, no valores p). También critica la selección de características basada en el valor p que se alinea bien con múltiples publicaciones en este sitio web.

En última instancia, siempre debemos hacer una validación cruzada de alguna manera al final si el objetivo es desarrollar buenos modelos para el pronóstico / predicción. Sin embargo, seguramente esto es una especie de desacuerdo aquí cuando se trata del procedimiento en sí para las métricas de evaluación distintas de los valores p.

¿Alguien tiene alguna opinión sobre el uso de AIC por pasos en este contexto, pero también en general fuera de este contexto? Me han enseñado a creer que cualquier selección por pasos es pobre, pero para ser honesto, me auto.arima(stepwise = TRUE)ha estado dando mejores resultados de la muestra que, auto.arima(stepwise = FALSE)pero tal vez esto sea solo una coincidencia.

forecasting predictive-models arima aic stepwise-regression aranglol
fuente

Una de las pocas cosas en las que los pronosticadores pueden ponerse de acuerdo es que seleccionar un "mejor" modelo generalmente funciona menos que combinar varios modelos diferentes.

S. Kolassa - Restablece a Mónica el

Respuestas:

Hay algunos problemas diferentes aquí.

Probablemente, el problema principal es que la selección del modelo (ya sea usando valores p o AIC, paso a paso o todos los subconjuntos o algo más) es principalmente problemática para la inferencia (por ejemplo, obtener valores p con el error tipo I apropiado, intervalos de confianza con cobertura adecuada). Para la predicción , la selección del modelo puede, de hecho, elegir un lugar mejor en el eje de compensación del sesgo-varianza y mejorar el error fuera de la muestra.
Para algunas clases de modelos, el AIC es asintóticamente equivalente a un error CV omitido por un lado [consulte, por ejemplo, http://www.petrkeil.com/?p=836 ], por lo que es razonable usar AIC como un proxy computacionalmente eficiente para el CV.
La selección por pasos a menudo está dominada por otros métodos de selección de modelos (o promedios ) (todos los subconjuntos si es computacionalmente factible, o métodos de contracción). Pero es simple y fácil de implementar, y si la respuesta es lo suficientemente clara (algunos parámetros correspondientes a señales fuertes, otros débiles, pocos intermedios), dará resultados razonables. Nuevamente, hay una gran diferencia entre inferencia y predicción. Por ejemplo, si tiene un par de predictores fuertemente correlacionados, elegir el incorrecto (desde un punto de vista de "verdad" / causal) es un gran problema para la inferencia, pero elegir el que le da el mejor AIC es razonable estrategia de predicción (aunque fallará si intenta pronosticar una situación en la que cambie la correlación de los predictores ...)

En pocas palabras: para datos de tamaño moderado con una relación señal / ruido razonable, la selección por pasos basada en AIC puede producir un modelo predictivo defendible ; ver Murtaugh (2009) para un ejemplo.

Murtaugh, Paul A. "Rendimiento de varios métodos de selección variable aplicados a datos ecológicos reales". Ecología letras 12, no. 10 (2009): 1061-1068.

Ben Bolker
fuente

p

$p$

Por favor, no me hagas hablar de Burnham y Anderson. github.com/bbolker/discretization

Ben Bolker