¿Hay alguna razón para preferir el AIC o BIC sobre el otro?

222

El AIC y el BIC son métodos para evaluar el ajuste del modelo penalizado por el número de parámetros estimados. Según tengo entendido, BIC penaliza más a los modelos por parámetros libres que AIC. Más allá de una preferencia basada en la rigurosidad de los criterios, ¿hay alguna otra razón para preferir AIC sobre BIC o viceversa?

russellpierce
fuente
1
Creo que es más apropiado llamar a esta discusión como selección "característica" o selección "covariable". Para mí, la selección del modelo es mucho más amplia e implica la especificación de la distribución de errores, la forma de la función de enlace y la forma de covariables. Cuando hablamos de AIC / BIC, normalmente estamos en una situación en la que todos los aspectos de la construcción de modelos son fijos, excepto la selección de covariables.
66
La decisión de las covariables específicas que se incluirán en un modelo generalmente se conoce como el término selección de modelo y hay una serie de libros con selección de modelo en el título que deciden principalmente qué covariables / parámetros de modelo incluir en el modelo.
Michael Chernick
No sé si su pregunta se aplica específicamente a la filogenia (bioinformática), pero si es así, este estudio puede proporcionar algunas ideas sobre este aspecto: ncbi.nlm.nih.gov/pmc/articles/PMC2925852
tlorin
La pregunta combinada también pregunta sobre KIC , actualice el texto de la pregunta y establezca una definición de KIC, pref con enlace.
smci
1
@smci He agregado stats.stackexchange.com/questions/383923/… para permitir que las personas profundicen en preguntas relacionadas con el KIC si están interesadas.
russellpierce

Respuestas:

179

Su pregunta implica que AIC y BIC intentan responder la misma pregunta, lo cual no es cierto. El AIC intenta seleccionar el modelo que describa más adecuadamente una realidad desconocida de alta dimensión. Esto significa que la realidad nunca está en el conjunto de modelos candidatos que se están considerando. Por el contrario, BIC intenta encontrar el modelo VERDADERO entre el conjunto de candidatos. Me resulta bastante extraño suponer que la realidad se instancia en uno de los modelos que los investigadores construyeron en el camino. Este es un problema real para BIC.

Sin embargo, hay muchos investigadores que dicen que BIC es mejor que AIC, utilizando simulaciones de recuperación de modelos como argumento. Estas simulaciones consisten en generar datos a partir de los modelos A y B, y luego ajustar ambos conjuntos de datos con los dos modelos. El sobreajuste ocurre cuando el modelo incorrecto se ajusta mejor a los datos que el generador. El objetivo de estas simulaciones es ver qué tan bien AIC y BIC corrigen estos sobreajustes. Por lo general, los resultados apuntan al hecho de que AIC es demasiado liberal y con frecuencia prefiere un modelo más complejo e incorrecto que un modelo más simple y verdadero. A primera vista, estas simulaciones parecen ser muy buenos argumentos, pero el problema con ellas es que no tienen sentido para AIC. Como dije antes, AIC no considera que ninguno de los modelos candidatos que se están probando sea realmente cierto. Según la AIC, todos los modelos son aproximaciones a la realidad, y la realidad nunca debería tener una baja dimensionalidad. Al menos más bajo que algunos de los modelos candidatos.

Mi recomendación es usar tanto AIC como BIC. La mayoría de las veces estarán de acuerdo con el modelo preferido, cuando no lo hagan, solo denúncielo.

Si no está satisfecho con AIC y BIC y tiene tiempo libre para invertir, busque Longitud mínima de descripción (MDL), un enfoque totalmente diferente que supera las limitaciones de AIC y BIC. Existen varias medidas derivadas del MDL, como la probabilidad máxima normalizada o la aproximación de la información de Fisher. El problema con MDL es que es matemáticamente exigente y / o computacionalmente intensivo.

Aún así, si desea apegarse a soluciones simples, una buena manera de evaluar la flexibilidad del modelo (especialmente cuando el número de parámetros es igual, haciendo que AIC y BIC sean inútiles) está haciendo Parametric Bootstrap, que es bastante fácil de implementar. Aquí hay un enlace a un documento sobre él.

Algunas personas aquí abogan por el uso de la validación cruzada. Personalmente, lo he usado y no tengo nada en contra, pero el problema es que la elección entre la regla de corte de muestra (dejar uno, K-fold, etc.) no tiene principios.

Dave Kellen
fuente
77
La diferencia se puede ver puramente desde el punto de vista matemático: BIC se derivó como una expansión asintótica de log P (datos) donde se muestrean parámetros de modelo verdaderos de acuerdo con la desaparición arbitraria de ninguna parte antes, AIC se deriva de manera similar con parámetros verdaderos mantenidos fijos
Yaroslav Bulatov
44
Usted dijo que "hay muchos investigadores que dicen que BIC es mejor que AIC, utilizando simulaciones de recuperación de modelos como argumento. Estas simulaciones consisten en generar datos de los modelos A y B, y luego ajustar ambos conjuntos de datos con los dos modelos". ¿Sería tan amable de señalar algunas referencias? Tengo curiosidad por ellos! :)
deps_stats
2
No creo en las declaraciones de esta publicación.
user9352
16
(-1) Gran explicación, pero me gustaría cuestionar una afirmación. @Dave Kellen ¿Podría dar una referencia de dónde está la idea de que el modelo TRUE debe estar en el set para BIC? Me gustaría investigar sobre esto, ya que en este libro los autores dan una prueba convincente de que este no es el caso.
gui11aume
2
Gran respuesta, pero no estoy de acuerdo con la afirmación "la realidad nunca debería tener una baja dimensionalidad". Esto depende de a qué "ciencia" esté aplicando sus modelos yoru
David
76

Aunque AIC y BIC son estimados por estimados de máxima verosimilitud y penalizan parámetros libres en un esfuerzo por combatir el sobreajuste, lo hacen de maneras que resultan en un comportamiento significativamente diferente. Veamos una versión comúnmente presentada de los métodos (que resulta de estipular errores distribuidos normalmente y otros supuestos que se comportan bien):

  • AIC = -2 * ln (probabilidad) + 2 * k,

y

  • BIC = -2 * ln (probabilidad) + ln (N) * k,

dónde:

  • k = grados de libertad del modelo
  • N = número de observaciones

El mejor modelo del grupo comparado es el que minimiza estos puntajes, en ambos casos. Claramente, AIC no depende directamente del tamaño de la muestra. Además, en términos generales, AIC presenta el peligro de que pueda sobreajustarse, mientras que BIC presenta el peligro de que pueda no ajustarse, simplemente en virtud de cómo penalizan los parámetros libres (2 * k en AIC; ln (N) * k en BIC). Diacrónicamente, a medida que se introducen los datos y se recalculan las puntuaciones, a N relativamente bajo (7 y menos) BIC es más tolerante a los parámetros libres que AIC, pero menos tolerante a N más alto (ya que el logaritmo natural de N supera 2).

Además, AIC tiene como objetivo encontrar el mejor modelo aproximado para el proceso de generación de datos desconocido (a través de minimizar la divergencia KL estimada esperada ). Como tal, no logra converger en probabilidad con el modelo verdadero (suponiendo que uno esté presente en el grupo evaluado), mientras que BIC converge ya que N tiende al infinito.

Entonces, como en muchas preguntas metodológicas, lo que es preferible depende de lo que está tratando de hacer, qué otros métodos están disponibles y si alguna de las características descritas (convergencia, tolerancia relativa para parámetros libres, minimiza la divergencia KL esperada) ), habla a tus objetivos.

John L. Taylor
fuente
8
buena respuesta. Una posible alternativa de AIC y BIC es que AIC dice que los "efectos espurios" no se vuelven más fáciles de detectar a medida que aumenta el tamaño de la muestra (o que no nos importa si los efectos espurios entran en el modelo), BIC dice que sí. Puede verse desde la perspectiva de OLS como en el artículo de Raftery de 1994, el efecto se vuelve aproximadamente "significativo" (es decir, se prefiere un modelo más grande) en AIC si su estadística t es mayor que , BIC si su estadística t es superior a | t| >|t|>2|t|>log(n)
probabilityislogic
2
Buena respuesta, +1. Me gusta especialmente la advertencia sobre si el verdadero modelo está realmente presente en el grupo evaluado. Yo diría que "el verdadero modelo" nunca está presente. (Box & Draper dijo que "todos los modelos son falsos, pero algunos son útiles", y Burnham & Anderson llaman a esto "tamaños de efecto de reducción gradual"). Es por eso que no estoy impresionado por la convergencia del BIC bajo suposiciones poco realistas y más por el objetivo del AIC con la mejor aproximación entre los modelos que realmente miramos.
Stephan Kolassa
68

Mi explicación rápida es

  • AIC es mejor para la predicción, ya que es asintóticamente equivalente a la validación cruzada.
  • BIC es mejor para la explicación, ya que permite una estimación consistente del proceso subyacente de generación de datos.
Rob Hyndman
fuente
AIC es equivalente a la validación cruzada de K-fold, BIC es equivalente a la validación cruzada de nivel uno. Aún así, ambos teoremas se mantienen solo en caso de regresión lineal.
55
mbq, es AIC / LOO (no LKO o K-fold) y no creo que la prueba en Stone 1977 se basara en modelos lineales. No sé los detalles del resultado BIC.
ars
11
ars es correcto Es AIC = LOO y BIC = K-fold donde K es una función complicada del tamaño de la muestra.
Rob Hyndman
Felicidades, me tienes; Tenía prisa en escribir eso y cometí este error, obviamente así es como lo escribió Rob. Sin embargo, es de Shao 1995, donde se suponía que el modelo es lineal. Analizaré a Stone, aún creo que ustedes, ars, pueden estar en lo correcto ya que LOO en mi campo tiene la misma mala reputación que varios * IC.
La descripción en Wikipedia ( en.wikipedia.org/wiki/… ) hace que parezca que la validación cruzada K-fold es como una simulación repetida para estimar la estabilidad de los parámetros. Puedo ver por qué se espera que AIC sea estable con LOO (ya que LOO se puede realizar exhaustivamente de forma exhaustiva), pero no entiendo por qué BIC sería estable con K-fold a menos que K también sea exhaustivo. ¿La fórmula compleja subyacente al valor de K lo hace exhaustivo? ¿O está sucediendo algo más?
russellpierce
16

En mi experiencia, BIC resulta en una falta de ajuste grave y AIC generalmente funciona bien, cuando el objetivo es maximizar la discriminación predictiva.

Frank Harrell
fuente
1
Súper retrasado, pero dado que esto todavía ocupa un lugar destacado en Google, ¿te importa elaborar en qué área estás trabajando? Tengo curiosidad por saber si hay algún efecto de dominio que deberíamos observar.
verybadatthis
@verybadatthis: bioestadística clínica (solo google "Frank Harrell", tiene presencia en la web)
Ben Bolker
13

Una "derivación" informativa y accesible de AIC y BIC por Brian Ripley se puede encontrar aquí: http://www.stats.ox.ac.uk/~ripley/Nelder80.pdf

Ripley ofrece algunas observaciones sobre los supuestos detrás de los resultados matemáticos. Al contrario de lo que indican algunas de las otras respuestas, Ripley enfatiza que AIC se basa en suponer que el modelo es verdadero. Si el modelo no es verdadero, un cálculo general revelará que el "número de parámetros" debe ser reemplazado por una cantidad más complicada. Algunas referencias se dan en las diapositivas de Ripleys. Sin embargo, tenga en cuenta que para la regresión lineal (estrictamente hablando con una varianza conocida), la cantidad, en general más complicada, se simplifica para ser igual al número de parámetros.

NRH
fuente
3
(+1) Sin embargo, Ripley está equivocado en el punto en que dice que los modelos deben estar anidados. No existe tal restricción en la derivación original de Akaike o, para ser más claros, en la derivación utilizando el AIC como estimador de la divergencia Kullback-Leibler. De hecho, en un trabajo en el que estoy trabajando, demuestro algo "empíricamente" que el AIC puede incluso usarse para la selección de modelos de estructuras de covarianza (diferentes números de parámetros, modelos claramente no anidados). De las miles de simulaciones de series de tiempo que ejecuté con diferentes estructuras de covarianza, en ninguna de ellas la AIC se equivoca ...
Néstor
... si el modelo "correcto" está de hecho en el conjunto de modelos (esto, sin embargo, también implica que para los modelos en los que estoy trabajando, la varianza del estimador es muy pequeña ... pero eso es solo una técnica detalle).
Néstor
1
@ Néstor, estoy de acuerdo. El punto sobre los modelos anidados es extraño.
NRH
3
Al seleccionar estructuras de covarianza para datos longitudinales (modelos de efectos mixtos o mínimos cuadrados generalizados), el AIC puede encontrar fácilmente la estructura incorrecta si hay más de 3 estructuras candidatas. Si hay más de 3, tendrá que usar el bootstrap u otros medios para ajustar la incertidumbre del modelo causada por el uso de AIC para seleccionar la estructura.
Frank Harrell
8

De hecho, la única diferencia es que BIC es AIC extendido para tener en cuenta varios objetos (muestras). Diría que si bien ambos son bastante débiles (en comparación con, por ejemplo, la validación cruzada), es mejor usar AIC, que más personas estarán familiarizadas con la abreviatura; de hecho, nunca he visto un documento o un programa donde BIC ser utilizado (todavía admito que estoy predispuesto a problemas donde tales criterios simplemente no funcionan).

Editar: AIC y BIC son equivalentes a la validación cruzada, siempre y cuando se definan dos supuestos importantes: cuando el modelo es de máxima probabilidad y cuando solo está interesado en el rendimiento del modelo en los datos de capacitación. En caso de colapsar algunos datos en algún tipo de consenso, están perfectamente bien.
En el caso de hacer una máquina de predicción para algún problema del mundo real, el primero es falso, ya que su conjunto de entrenamiento representa solo un fragmento de información sobre el problema que está tratando, por lo que simplemente no puede optimizar su modelo; el segundo es falso, porque espera que su modelo maneje los nuevos datos para los cuales ni siquiera puede esperar que el conjunto de entrenamiento sea representativo. Y para este fin se inventó el CV; para simular el comportamiento del modelo cuando se enfrenta con datos independientes. En el caso de la selección del modelo, CV le brinda no solo la calidad aproximada, sino también la distribución de aproximación de la calidad, por lo que tiene la gran ventaja de que puede decir "No sé, sean cuales sean los nuevos datos, cualquiera de ellos puede ser mejor."

Scortchi
fuente
¿Eso significa que para ciertos tamaños de muestra BIC puede ser menos estricto que AIC?
russellpierce
1
Aquí estrictamente no es la mejor palabra, sino más tolerante con los parámetros; aún así, sí, para las definiciones comunes (con registro natural) sucede para 7 y menos objetos.
AIC es asintóticamente equivalente a la validación cruzada.
Rob Hyndman
55
@mbq: no veo cómo la validación cruzada supera el problema de "falta de representatividad". Si sus datos de entrenamiento no son representativos de los datos que recibirá en el futuro, puede validar de forma cruzada todo lo que desee, pero no será representativo del "error de generalización" que realmente enfrentará (como "el verdadero "los datos nuevos no están representados por la parte no modelada de los datos de entrenamiento). Obtener un conjunto de datos representativos es vital para hacer buenas predicciones.
probabilidadislogica
1
@mbq: mi punto es que parece que "rechaza suavemente" la selección basada en IC basada en una alternativa que no soluciona el problema. La validación cruzada es buena (¿aunque el cálculo valga la pena?), Pero los datos no representativos no pueden tratarse utilizando un proceso impulsado por datos. Al menos no de manera confiable. Necesita tener información previa que le diga cómo es no representativo (o más generalmente, qué conexiones lógicas tienen los datos "no representativos" con los datos futuros reales que observará).
Probabilidadislogica
5

Como mencionó, AIC y BIC son métodos para penalizar a los modelos por tener más variables regresoras. Se utiliza una función de penalización en estos métodos, que es una función del número de parámetros en el modelo.

  • Al aplicar AIC, la función de penalización es z (p) = 2 p .

  • Cuando se aplica BIC, la función de penalización es z (p) = p ln ( n ), que se basa en interpretar la penalización como derivada de información previa (de ahí el nombre Criterio de información bayesiano).

Cuando n es grande, los dos modelos producirán resultados bastante diferentes. Luego, el BIC aplica una penalización mucho mayor para los modelos complejos y, por lo tanto, dará lugar a modelos más simples que el AIC. Sin embargo, como se indica en Wikipedia en BIC :

Cabe señalar que en muchas aplicaciones ..., BIC simplemente se reduce a la selección de máxima probabilidad porque el número de parámetros es igual para los modelos de interés.

Amanda
fuente
44
tenga en cuenta que AIC también es equivalente a ML cuando la dimensión no cambia. Su respuesta hace que parezca que esto es solo para BIC.
probabilidad es
5

Por lo que puedo decir, no hay mucha diferencia entre AIC y BIC. Ambas son aproximaciones matemáticamente convenientes que uno puede hacer para comparar modelos de manera eficiente. Si le dan diferentes "mejores" modelos, probablemente significa que tiene una alta incertidumbre del modelo, lo que es más importante de lo que debe preocuparse que si debe usar AIC o BIC. Personalmente, me gusta más BIC porque pide más (menos) de un modelo si tiene más (menos) datos para ajustarse a sus parámetros, algo así como un maestro que pide un estándar de rendimiento más alto (más bajo) si su estudiante tiene más (menos) ) tiempo para aprender sobre el tema. Para mí, esto parece ser algo intuitivo. Pero estoy seguro de que también existen argumentos igualmente intuitivos y convincentes para AIC, dada su forma simple.

Ahora, cada vez que haga una aproximación, seguramente habrá algunas condiciones cuando esas aproximaciones sean basura. Esto se puede ver ciertamente para AIC, donde existen muchos "ajustes" (AICc) para tener en cuenta ciertas condiciones que hacen que la aproximación original sea mala. Esto también está presente para BIC, porque existen varios otros métodos más exactos (pero aún así eficientes), como las aproximaciones de Fully Laplace a mezclas de g-priors de Zellner (BIC es una aproximación al método de aproximación de Laplace para integrales).

Un lugar donde ambos son basura es cuando tienes información previa sustancial sobre los parámetros dentro de cualquier modelo dado. AIC y BIC penalizan innecesariamente los modelos donde los parámetros se conocen parcialmente en comparación con los modelos que requieren que los parámetros se estimen a partir de los datos.

P(D|M,A)P(M|D,A)MMA

Mi:the ith model is the best description of the dataA:out of the set of K models being considered, one of them is the best

Y luego continúe asignando los mismos modelos de probabilidad (mismos parámetros, mismos datos, mismas aproximaciones, etc.), obtendré el mismo conjunto de valores BIC. Es solo al atribuir algún tipo de significado único a la letra lógica "M" que uno se ve envuelto en preguntas irrelevantes sobre "el verdadero modelo" (ecos de "la verdadera religión"). Lo único que "define" M son las ecuaciones matemáticas que lo utilizan en sus cálculos, y esto casi nunca destaca una sola definición. Igualmente podría poner una proposición de predicción sobre M ("el i-ésimo modelo dará las mejores predicciones"). Personalmente, no puedo ver cómo esto cambiaría cualquiera de las probabilidades y, por lo tanto, cuán bueno o malo será BIC (AIC también para ese asunto, aunque AIC se basa en una derivación diferente)

Y, además, lo que está mal con la declaración Si el verdadero modelo está en el conjunto estoy considerando, entonces hay una probabilidad del 57% que es el modelo B . Me parece bastante razonable, o podría ir a la versión más "blanda", hay un 57% de probabilidad de que el modelo B sea el mejor del conjunto que se está considerando

Un último comentario: creo que encontrará tantas opiniones sobre AIC / BIC como personas que las conocen.

probabilidadislogica
fuente
4

Raramente se debe usar AIC, ya que en realidad solo es válido asintóticamente. Casi siempre es mejor utilizar AICc (AIC con una c orrection para el tamaño de muestra finita). La AIC tiende a parametrizar en exceso: ese problema se reduce considerablemente con la AICc. La principal excepción al uso de AICc es cuando las distribuciones subyacentes son fuertemente leptokurtic. Para más información sobre esto, vea el libro Model Selection de Burnham & Anderson.

usuario2875
fuente
1
Entonces, lo que está diciendo es que AIC no castiga suficientemente a los modelos para los parámetros, por lo que usarlo como criterio puede conducir a una sobreparamización. En su lugar, recomienda el uso de AICc. Para volver a poner esto en el contexto de mi pregunta inicial, dado que BIC ya es más estricto que AIC, ¿hay alguna razón para usar AICc sobre BIC?
russellpierce
1
¿Qué quiere decir con AIC es válido asintóticamente? Como señaló John Taylor, AIC es inconsistente. Creo que sus compromisos contrastando AIC con BIC son los mejores dados. No veo que los dos sean lo mismo que la validación cruzada. Todos tienen una buena propiedad que generalmente alcanzan su punto máximo en un modelo con menos del número máximo de variables. Pero todos pueden elegir diferentes modelos.
Michael Chernick
4

AIC y BIC son criterios de información para comparar modelos. Cada uno intenta equilibrar el ajuste del modelo y la parsimonia y penaliza de manera diferente por el número de parámetros.

AIC=2k2ln(L)
kL2ln(L)2k

BIC es un criterio de información bayesiano, la fórmula es y favorece modelos más parsimoniosos que AIC

BIC=kln(n)2ln(L)

No he oído hablar de KIC.

Peter Flom
fuente
tampoco he oído hablar de KIC, pero para AIC y BIC eche un vistazo a la pregunta vinculada o busque AIC. stats.stackexchange.com/q/577/442
Henrik
1
(Esta respuesta se fusionó a partir de una pregunta duplicada que también solicitaba la interpretación de "KIC".)
whuber
3
No es necesario anidar los modelos para compararlos con AIC o BIC.
Macro
1

Muy corto:

  • AIC minimiza aproximadamente el error de predicción y es asintóticamente equivalente a la validación cruzada de dejar-1-fuera (LOOCV) (Stone 1977). Sin embargo, no es consistente, lo que significa que incluso con una gran cantidad de datos ( llegando al infinito) y si el modelo verdadero se encuentra entre los modelos candidatos, la probabilidad de seleccionar el modelo verdadero basado en el criterio AIC no se acercaría a 1 En cambio, retendría demasiadas características.n
  • P(D|M,A)(D=Data,M=model,A=assumptions)P(M|D,A)nnk=n[11/(log(n)1)]n=

lambda=2lambda=log(n), donde la optimización de un objetivo (LASSO o regresión neta elástica) es seguida por el ajuste de los parámetros de regularización en función de algún otro objetivo (que, por ejemplo, minimiza el error de predicción de validación cruzada, AIC o BIC).

n1n

Tenga en cuenta que el error LOOCV también se puede calcular analíticamente a partir de los residuos y la diagonal de la matriz de sombreros , sin tener que realizar ninguna validación cruzada. Esto siempre sería una alternativa al AIC como una aproximación asintótica del error LOOCV.

Referencias

Stone M. (1977) Una equivalencia asintótica de elección del modelo mediante validación cruzada y el criterio de Akaike. Revista de la Royal Statistical Society Series B. 39, 44–7.

Shao J. (1997) Una teoría asintótica para la selección del modelo lineal. Statistica Sinica 7, 221-242.

Tom Wenseleers
fuente