Está bien establecido, al menos entre los estadísticos de algún calibre más alto, que los modelos con los valores del estadístico AIC dentro de un cierto umbral del valor mínimo deben considerarse apropiados como el modelo que minimiza el estadístico AIC. Por ejemplo, en [1, p.221] encontramos
Entonces, los modelos con GCV o AIC pequeños se considerarían los mejores. Por supuesto, uno no solo debe minimizar a ciegas el GCV o el AIC. Más bien, todos los modelos con valores de GCV o AIC razonablemente pequeños deben considerarse como potencialmente apropiados y evaluados de acuerdo con su simplicidad y relevancia científica.
Del mismo modo, en [2, p.144] tenemos
Se ha sugerido (Duong, 1984) que los modelos con valores de AIC dentro de c del valor mínimo deben considerarse competitivos (con c = 2 como valor típico). La selección entre los modelos competitivos puede basarse en factores tales como la blancura de los residuos (Sección 5.3) y la simplicidad del modelo.
Referencias
- Ruppert, D .; Varita, MP y Carrol, Regresión Semiparamétrica RJ , Cambridge University Press, 2003
- Brockwell, PJ & Davis, RA Introducción a series de tiempo y pronósticos , John Wiley & Sons, 1996
Entonces, dado lo anterior, ¿cuál de los dos modelos a continuación debería preferirse?
print( lh300 <- arima(lh, order=c(3,0,0)) )
# ... sigma^2 estimated as 0.1787: log likelihood = -27.09, aic = 64.18
print( lh100 <- arima(lh, order=c(1,0,0)) )
# ... sigma^2 estimated as 0.1975: log likelihood = -29.38, aic = 64.76
En términos más generales, ¿cuándo es apropiado seleccionar modelos minimizando ciegamente el AIC o la estadística relacionada?
fuente
Respuestas:
Parafraseando de las notas de la conferencia de Cosma Shalizi sobre la verdad sobre la regresión lineal , nunca elegirás un modelo solo porque minimizó una estadística como AIC , por
fuente
Yo diría que a menudo es apropiado usar AIC en la selección del modelo, pero rara vez es correcto usarlo como la única base para la selección del modelo. También debemos utilizar el conocimiento sustantivo.
En su caso particular, está comparando un modelo con un AR de 3er orden versus uno con un AR de 1er orden. Además de AIC (o algo similar), vería las gráficas de autocorrelación y autocorrelación parcial. También consideraría lo que significaría un modelo de tercer orden . ¿Tiene sentido? ¿Se agrega al conocimiento sustantivo? (O, si solo está interesado en la predicción, ¿ayuda a predecir?)
En términos más generales, a veces es interesante encontrar un tamaño de efecto muy pequeño.
fuente
auto.arima
, Hyndman y Khandakar (2008) , por ejemplo: -. "Previsiones automáticas de un gran número de series temporales univariantes a menudo son necesarios en los negocios Es común tener más de mil líneas de productos que necesitan previsión por lo menos mensualmente. Incluso cuando se requiere un número menor de pronósticos, puede que no haya nadie adecuadamente capacitado en el uso de modelos de series de tiempo para producirlos. En estas circunstancias, un algoritmo de pronóstico automático es una herramienta esencial ". Tenga en cuenta estas circunstancias .Puede pensar en AIC como un valor de corte de más razonable (es decir, más grande) . Pero la selección de modelos basada en valores o cualquier otra métrica de una variable a la vez está llena de dificultades, y tiene todos los problemas de la selección de variables por pasos. En términos generales, AIC funciona mejor si se usa para seleccionar un único parámetro único (p. Ej., Coeficiente de contracción) o para comparar 2 o 3 modelos candidatos. De lo contrario, ajustar el conjunto completo de variables de alguna manera, utilizando la reducción o reducción de datos, a menudo dará como resultado una discriminación predictiva superior. La paternidad está en desacuerdo con la discriminación predictiva.PP P
fuente