En la entrada de Wikipedia para el criterio de información de Akaike , leemos en Comparación con BIC (criterio de información bayesiano) que
... AIC / AICc tiene ventajas teóricas sobre BIC ... AIC / AICc se deriva de principios de información; BIC no es ... BIC tiene un previo de 1 / R (donde R es el número de modelos candidatos), lo que "no es sensato" ... AICc tiende a tener ventajas prácticas / de rendimiento sobre BIC ... AIC es asintóticamente óptimo ... BIC no es asintóticamente óptimo ... la velocidad a la que AIC converge al óptimo es ... la mejor posible.
En la sección de charlas de AIC , hay numerosos comentarios sobre la presentación sesgada de la sección de comparación con BIC. Un colaborador frustrado protestó porque todo el artículo "se lee como un comercial de cigarrillos".
En otras fuentes, por ejemplo, este apéndice de tesis, el tenor de las afirmaciones de AIC parece más realista. Por lo tanto, como un servicio a la comunidad, preguntamos:
P: ¿Hay circunstancias en las que BIC es útil y AIC no lo es?
No tiene sentido hacer la pregunta de si AIC es mejor que BIC. Aunque estos dos criterios de selección de modelos diferentes parecen superficialmente similares, cada uno fue diseñado para resolver problemas fundamentalmente diferentes. Por lo tanto, debe elegir el criterio de selección de modelo que sea apropiado para el problema que tiene.
AIC es una fórmula que calcula el valor esperado del doble de la probabilidad logarítmica negativa de los datos de prueba utilizando un modelo de probabilidad correctamente especificado cuyos parámetros se obtuvieron ajustando el modelo a los datos de entrenamiento. Es decir, AIC estima el error esperado de validación cruzada utilizando un error de probabilidad de registro negativo. Es decir, Donde son datos de prueba, se estima utilizando datos de entrenamiento, y denota el operador de expectativa con respecto al proceso de generación de datos iid que generó tanto el entrenamiento como los datos de prueba.Un yoC≈ E{ - 2 log∏nortei = 1p (XyoEl |θ^norte) } X1, ... ,Xnorte θ^norte mi{ }
BIC por otro lado no está diseñado para estimar el error de validación cruzada. BIC estima dos veces el logaritmo negativo de la probabilidad de los datos observados dado el modelo. Esta probabilidad también se denomina probabilidad marginal que se calcula integrando la función de probabilidad ponderada por un parámetro anterior sobre el espacio del parámetro. Es decir, .p ( θ ) si IC≈ - 2 log∫[∏nortei = 1pags(XyoEl | θ)]p(θ) dθ
fuente