¿Hay circunstancias en las que BIC es útil y AIC no lo es?

En la entrada de Wikipedia para el criterio de información de Akaike , leemos en Comparación con BIC (criterio de información bayesiano) que

... AIC / AICc tiene ventajas teóricas sobre BIC ... AIC / AICc se deriva de principios de información; BIC no es ... BIC tiene un previo de 1 / R (donde R es el número de modelos candidatos), lo que "no es sensato" ... AICc tiende a tener ventajas prácticas / de rendimiento sobre BIC ... AIC es asintóticamente óptimo ... BIC no es asintóticamente óptimo ... la velocidad a la que AIC converge al óptimo es ... la mejor posible.

En la sección de charlas de AIC , hay numerosos comentarios sobre la presentación sesgada de la sección de comparación con BIC. Un colaborador frustrado protestó porque todo el artículo "se lee como un comercial de cigarrillos".

En otras fuentes, por ejemplo, este apéndice de tesis, el tenor de las afirmaciones de AIC parece más realista. Por lo tanto, como un servicio a la comunidad, preguntamos:

P: ¿Hay circunstancias en las que BIC es útil y AIC no lo es?

model-selection aic prior information-theory bic Carl
fuente

Respuestas:

Según Wikipedia, el AIC se puede escribir de la siguiente manera: Como el BIC permite una gran penalización para modelos complejos, hay situaciones en las que el AIC le indicará que debe seleccionar un modelo que también sea complejo, mientras que el BIC sigue siendo útil. El BIC se puede escribir de la siguiente manera: Entonces, la diferencia es que el BIC penaliza el tamaño de la muestra. Si no desea penalizar por la muestra allí

2 k - 2 En (L)

$2k - 2 \ln(\mathcal L)$

- 2 En (L) + k En (norte)

$-2 \ln(\mathcal L) + k \ln(n)$

Aquí se puede encontrar una explicación rápida de Rob Hyndman: ¿Hay alguna razón para preferir el AIC o BIC sobre el otro? El escribe:

AIC es mejor para la predicción, ya que es asintóticamente equivalente a la validación cruzada.

BIC es mejor para la explicación, ya que permite una estimación consistente del proceso subyacente de generación de datos. **

Editar: se puede encontrar un ejemplo en el análisis de series temporales. En los modelos VAR, el AIC (así como su versión corregida, el AICc) a menudo tardan muchos retrasos. Por lo tanto, uno debe mirar principalmente el BIC al elegir el número de retrasos de un modelo VAR. Para obtener más información, puede leer el capítulo 9.2 de Pronóstico - Principios y práctica de Rob J. Hyndman y George Athanasopoulos.

Ferdi
fuente

¿Puedes agregar más, por favor? En particular, ¿no se puede usar BIC para converger en un previo apropiado dado su post-hoc? Agradezco la respuesta, gracias. Por cierto, "demasiado" complejo no "2". El concepto no temporalmente extraño de "predicción" parece limitado a predecir solo en el sentido de la interpolación de valores de un rango casi idéntico de valores retenidos. Por lo general, la palabra predicción se aplicaría a la extrapolación más allá del rango de una serie temporal observada, que no es en lo que la validación cruzada o AIC son especialmente buenos. Tal vez debería usarse el término "interpolación prevista".

Carl

El texto en negrita es una cita uno a uno de Rob Hyndman, quien es un famoso profesor de estadística de Australia. Creo que por "predicción" quiere decir "inferencia". Por lo tanto, el AIC sería más útil para las estadísticas inferenciales, mientras que el BIC sería más útil para las estadísticas descriptivas.

Ferdi

Sí, prolífico también. Aún así, lo que pido es un buen ejemplo de lo que AIC no puede hacer que BIC sí puede hacer.

Carl

@Ferdi, no, definitivamente "predicción" no significa "inferencia" en esa publicación de blog. "Predicción" es "predicción" o "predicción" donde no le importa si su modelo es "correcto" (en cierto sentido) siempre que pronostique bien. Después de esa publicación, parece que BIC es el preferido para la inferencia.

Richard Hardy

Gracias por su respuesta. La predicción o pronóstico es "inferir" de los datos observados en "datos no observados".

Ferdi

No tiene sentido hacer la pregunta de si AIC es mejor que BIC. Aunque estos dos criterios de selección de modelos diferentes parecen superficialmente similares, cada uno fue diseñado para resolver problemas fundamentalmente diferentes. Por lo tanto, debe elegir el criterio de selección de modelo que sea apropiado para el problema que tiene.

AIC es una fórmula que calcula el valor esperado del doble de la probabilidad logarítmica negativa de los datos de prueba utilizando un modelo de probabilidad correctamente especificado cuyos parámetros se obtuvieron ajustando el modelo a los datos de entrenamiento. Es decir, AIC estima el error esperado de validación cruzada utilizando un error de probabilidad de registro negativo. Es decir, Donde son datos de prueba, se estima utilizando datos de entrenamiento, y denota el operador de expectativa con respecto al proceso de generación de datos iid que generó tanto el entrenamiento como los datos de prueba. $AIC \approx E\{-2 \log \prod_{i=1}^n p(x_i | \hat{\theta}_n)\}$ $x_1, \ldots, x_n$ $\hat{\theta}_n$ $E\{ \}$

BIC por otro lado no está diseñado para estimar el error de validación cruzada. BIC estima dos veces el logaritmo negativo de la probabilidad de los datos observados dado el modelo. Esta probabilidad también se denomina probabilidad marginal que se calcula integrando la función de probabilidad ponderada por un parámetro anterior sobre el espacio del parámetro. Es decir, . $p(\theta)$ $BIC \approx -2 \log \int [\prod_{i=1}^n p( x_i | \theta) ] p(\theta)d\theta$

RMG
fuente

Algunos defensores de AIC versus BIC están tan enamorados de sus opiniones que me recuerdan a demócratas versus republicanos en los Estados Unidos. La pregunta planteada es práctica, ya que estos campos armados a menudo revisan artículos de revistas científicas, y de hecho una pregunta más relevante es si la probabilidad máxima es apropiada en las circunstancias en las que tiende a aplicarse.

Carl

Por cierto (+1) por contribuir a la discusión. Me gustaría ver más acerca de si AIC o BIC son aplicables a cuándo tienden a usarse, pero eso es, sin duda, una pregunta separada.

Carl