¿Cuándo es apropiado seleccionar modelos minimizando el AIC?

12

Está bien establecido, al menos entre los estadísticos de algún calibre más alto, que los modelos con los valores del estadístico AIC dentro de un cierto umbral del valor mínimo deben considerarse apropiados como el modelo que minimiza el estadístico AIC. Por ejemplo, en [1, p.221] encontramos

Entonces, los modelos con GCV o AIC pequeños se considerarían los mejores. Por supuesto, uno no solo debe minimizar a ciegas el GCV o el AIC. Más bien, todos los modelos con valores de GCV o AIC razonablemente pequeños deben considerarse como potencialmente apropiados y evaluados de acuerdo con su simplicidad y relevancia científica.

Del mismo modo, en [2, p.144] tenemos

Se ha sugerido (Duong, 1984) que los modelos con valores de AIC dentro de c del valor mínimo deben considerarse competitivos (con c = 2 como valor típico). La selección entre los modelos competitivos puede basarse en factores tales como la blancura de los residuos (Sección 5.3) y la simplicidad del modelo.

Referencias

  1. Ruppert, D .; Varita, MP y Carrol, Regresión Semiparamétrica RJ , Cambridge University Press, 2003
  2. Brockwell, PJ & Davis, RA Introducción a series de tiempo y pronósticos , John Wiley & Sons, 1996

Entonces, dado lo anterior, ¿cuál de los dos modelos a continuación debería preferirse?

print( lh300 <- arima(lh, order=c(3,0,0)) )
# ... sigma^2 estimated as 0.1787:  log likelihood = -27.09,  aic = 64.18
print( lh100 <- arima(lh, order=c(1,0,0)) )
# ... sigma^2 estimated as 0.1975:  log likelihood = -29.38,  aic = 64.76

En términos más generales, ¿cuándo es apropiado seleccionar modelos minimizando ciegamente el AIC o la estadística relacionada?

Hibernando
fuente
No ha dado el AIC para ninguno de los modelos.
Peter Flom - Restablece a Monica
He mostrado cómo conseguirlo con R.
Hibernando el
1
Problemas de +1 en los modelos ARIMA que se detallan a continuación. Pero por lo demás: "Simplificando un modelo de pronóstico: un estudio de simulación basado en datos clínicos". Ambler 2002 es la referencia más citada sobre esto.
Charles

Respuestas:

4

Parafraseando de las notas de la conferencia de Cosma Shalizi sobre la verdad sobre la regresión lineal , nunca elegirás un modelo solo porque minimizó una estadística como AIC , por

Every time someone solely uses an AIC statistic for model selection, an angel loses its
wings. Every time someone thoughtlessly minimises it, an angel not only loses its wings,
but is cast out of Heaven and falls in most extreme agony into the everlasting fire.
skulker
fuente
1
Como dijo un judío famoso: "La imaginación es mejor que el conocimiento" :)
Hibernando el
Y, como dijo un famoso no judío "Puedes ver mucho mirando" (Yogi Berra).
Peter Flom - Restablece a Monica
Y lo que vemos, por supuesto, depende principalmente de lo que buscamos. --John Lubbock
Hibernante
12

Yo diría que a menudo es apropiado usar AIC en la selección del modelo, pero rara vez es correcto usarlo como la única base para la selección del modelo. También debemos utilizar el conocimiento sustantivo.

En su caso particular, está comparando un modelo con un AR de 3er orden versus uno con un AR de 1er orden. Además de AIC (o algo similar), vería las gráficas de autocorrelación y autocorrelación parcial. También consideraría lo que significaría un modelo de tercer orden . ¿Tiene sentido? ¿Se agrega al conocimiento sustantivo? (O, si solo está interesado en la predicción, ¿ayuda a predecir?)

En términos más generales, a veces es interesante encontrar un tamaño de efecto muy pequeño.

Peter Flom - Restablece a Monica
fuente
¿Acabas de decir que un buen algoritmo para seleccionar un modelo arima no debe basarse únicamente en el criterio AIC (o similar)?
Hibernando el
Sí, dije eso.
Peter Flom - Restablece a Monica
Y en este extremo lo escuché como adiós auto.arima. Preferiría seguir un enfoque descrito en el capítulo 6 de Bisgaard, S. & Kulahci, M. Análisis y predicción de series de tiempo con el ejemplo John Wiley & Sons, Inc., 2011, incluso más precisamente en la sección 6.5 FUNCIÓN DE RESPUESTA AL IMPULSO AL ESTUDIO LAS DIFERENCIAS EN MODELOS
Hibernando el
1
@Hibernating: Los autores de auto.arima, Hyndman y Khandakar (2008) , por ejemplo: -. "Previsiones automáticas de un gran número de series temporales univariantes a menudo son necesarios en los negocios Es común tener más de mil líneas de productos que necesitan previsión por lo menos mensualmente. Incluso cuando se requiere un número menor de pronósticos, puede que no haya nadie adecuadamente capacitado en el uso de modelos de series de tiempo para producirlos. En estas circunstancias, un algoritmo de pronóstico automático es una herramienta esencial ". Tenga en cuenta estas circunstancias .
Scortchi - Restablece a Monica
2
Gracias pero lo había leído antes. Incluso si ignoramos los problemas obvios con la parte "auto" por ahora, hay problemas con la parte "arima", especialmente cuando se extiende para incluir modelos estacionales. Los modelos estacionales de ARIMA han sido fuertemente criticados por PJ Harrison, C Chatfield y algunas otras personalidades de las que disfruté aprender. No tengo nada en contra de la predicción automática cuando es i) absolutamente necesario y ii) basado en algoritmos que puedo encontrar sonido; de lo contrario, sigo el consejo de DR Cox en su comentario sobre el artículo de "dos culturas" de Leo Breiman en Stat Science hace unos años.
Hibernando el
8

Puede pensar en AIC como un valor de corte de más razonable (es decir, más grande) . Pero la selección de modelos basada en valores o cualquier otra métrica de una variable a la vez está llena de dificultades, y tiene todos los problemas de la selección de variables por pasos. En términos generales, AIC funciona mejor si se usa para seleccionar un único parámetro único (p. Ej., Coeficiente de contracción) o para comparar 2 o 3 modelos candidatos. De lo contrario, ajustar el conjunto completo de variables de alguna manera, utilizando la reducción o reducción de datos, a menudo dará como resultado una discriminación predictiva superior. La paternidad está en desacuerdo con la discriminación predictiva.PPP

Frank Harrell
fuente
2
Tu última oración es interesante. Recuerdo haber leído que agregar predictores incluso insignificantes a la regresión puede estar justificado si el objetivo final es la predicción. No le presté mucha atención en ese momento, pero ahora intentaré encontrar esa referencia.
Hibernando el
3
En lugar de agregar , diría que evite eliminar . Y no es solo predicción, sino que el uso de evaluaciones de asociación estadística para guiar la selección de variables provoca sesgos y errores estándar no válidos y límites de confianza.
Frank Harrell