El AIC y el BIC son métodos para evaluar el ajuste del modelo penalizado por el número de parámetros estimados. Según tengo entendido, BIC penaliza más a los modelos por parámetros libres que AIC. Más allá de una preferencia basada en la rigurosidad de los criterios, ¿hay alguna otra razón para preferir AIC sobre BIC o viceversa?
modeling
aic
cross-validation
bic
model-selection
russellpierce
fuente
fuente
Respuestas:
Su pregunta implica que AIC y BIC intentan responder la misma pregunta, lo cual no es cierto. El AIC intenta seleccionar el modelo que describa más adecuadamente una realidad desconocida de alta dimensión. Esto significa que la realidad nunca está en el conjunto de modelos candidatos que se están considerando. Por el contrario, BIC intenta encontrar el modelo VERDADERO entre el conjunto de candidatos. Me resulta bastante extraño suponer que la realidad se instancia en uno de los modelos que los investigadores construyeron en el camino. Este es un problema real para BIC.
Sin embargo, hay muchos investigadores que dicen que BIC es mejor que AIC, utilizando simulaciones de recuperación de modelos como argumento. Estas simulaciones consisten en generar datos a partir de los modelos A y B, y luego ajustar ambos conjuntos de datos con los dos modelos. El sobreajuste ocurre cuando el modelo incorrecto se ajusta mejor a los datos que el generador. El objetivo de estas simulaciones es ver qué tan bien AIC y BIC corrigen estos sobreajustes. Por lo general, los resultados apuntan al hecho de que AIC es demasiado liberal y con frecuencia prefiere un modelo más complejo e incorrecto que un modelo más simple y verdadero. A primera vista, estas simulaciones parecen ser muy buenos argumentos, pero el problema con ellas es que no tienen sentido para AIC. Como dije antes, AIC no considera que ninguno de los modelos candidatos que se están probando sea realmente cierto. Según la AIC, todos los modelos son aproximaciones a la realidad, y la realidad nunca debería tener una baja dimensionalidad. Al menos más bajo que algunos de los modelos candidatos.
Mi recomendación es usar tanto AIC como BIC. La mayoría de las veces estarán de acuerdo con el modelo preferido, cuando no lo hagan, solo denúncielo.
Si no está satisfecho con AIC y BIC y tiene tiempo libre para invertir, busque Longitud mínima de descripción (MDL), un enfoque totalmente diferente que supera las limitaciones de AIC y BIC. Existen varias medidas derivadas del MDL, como la probabilidad máxima normalizada o la aproximación de la información de Fisher. El problema con MDL es que es matemáticamente exigente y / o computacionalmente intensivo.
Aún así, si desea apegarse a soluciones simples, una buena manera de evaluar la flexibilidad del modelo (especialmente cuando el número de parámetros es igual, haciendo que AIC y BIC sean inútiles) está haciendo Parametric Bootstrap, que es bastante fácil de implementar. Aquí hay un enlace a un documento sobre él.
Algunas personas aquí abogan por el uso de la validación cruzada. Personalmente, lo he usado y no tengo nada en contra, pero el problema es que la elección entre la regla de corte de muestra (dejar uno, K-fold, etc.) no tiene principios.
fuente
Aunque AIC y BIC son estimados por estimados de máxima verosimilitud y penalizan parámetros libres en un esfuerzo por combatir el sobreajuste, lo hacen de maneras que resultan en un comportamiento significativamente diferente. Veamos una versión comúnmente presentada de los métodos (que resulta de estipular errores distribuidos normalmente y otros supuestos que se comportan bien):
y
dónde:
El mejor modelo del grupo comparado es el que minimiza estos puntajes, en ambos casos. Claramente, AIC no depende directamente del tamaño de la muestra. Además, en términos generales, AIC presenta el peligro de que pueda sobreajustarse, mientras que BIC presenta el peligro de que pueda no ajustarse, simplemente en virtud de cómo penalizan los parámetros libres (2 * k en AIC; ln (N) * k en BIC). Diacrónicamente, a medida que se introducen los datos y se recalculan las puntuaciones, a N relativamente bajo (7 y menos) BIC es más tolerante a los parámetros libres que AIC, pero menos tolerante a N más alto (ya que el logaritmo natural de N supera 2).
Además, AIC tiene como objetivo encontrar el mejor modelo aproximado para el proceso de generación de datos desconocido (a través de minimizar la divergencia KL estimada esperada ). Como tal, no logra converger en probabilidad con el modelo verdadero (suponiendo que uno esté presente en el grupo evaluado), mientras que BIC converge ya que N tiende al infinito.
Entonces, como en muchas preguntas metodológicas, lo que es preferible depende de lo que está tratando de hacer, qué otros métodos están disponibles y si alguna de las características descritas (convergencia, tolerancia relativa para parámetros libres, minimiza la divergencia KL esperada) ), habla a tus objetivos.
fuente
Mi explicación rápida es
fuente
En mi experiencia, BIC resulta en una falta de ajuste grave y AIC generalmente funciona bien, cuando el objetivo es maximizar la discriminación predictiva.
fuente
Una "derivación" informativa y accesible de AIC y BIC por Brian Ripley se puede encontrar aquí: http://www.stats.ox.ac.uk/~ripley/Nelder80.pdf
Ripley ofrece algunas observaciones sobre los supuestos detrás de los resultados matemáticos. Al contrario de lo que indican algunas de las otras respuestas, Ripley enfatiza que AIC se basa en suponer que el modelo es verdadero. Si el modelo no es verdadero, un cálculo general revelará que el "número de parámetros" debe ser reemplazado por una cantidad más complicada. Algunas referencias se dan en las diapositivas de Ripleys. Sin embargo, tenga en cuenta que para la regresión lineal (estrictamente hablando con una varianza conocida), la cantidad, en general más complicada, se simplifica para ser igual al número de parámetros.
fuente
De hecho, la única diferencia es que BIC es AIC extendido para tener en cuenta varios objetos (muestras). Diría que si bien ambos son bastante débiles (en comparación con, por ejemplo, la validación cruzada), es mejor usar AIC, que más personas estarán familiarizadas con la abreviatura; de hecho, nunca he visto un documento o un programa donde BIC ser utilizado (todavía admito que estoy predispuesto a problemas donde tales criterios simplemente no funcionan).
Editar: AIC y BIC son equivalentes a la validación cruzada, siempre y cuando se definan dos supuestos importantes: cuando el modelo es de máxima probabilidad y cuando solo está interesado en el rendimiento del modelo en los datos de capacitación. En caso de colapsar algunos datos en algún tipo de consenso, están perfectamente bien.
En el caso de hacer una máquina de predicción para algún problema del mundo real, el primero es falso, ya que su conjunto de entrenamiento representa solo un fragmento de información sobre el problema que está tratando, por lo que simplemente no puede optimizar su modelo; el segundo es falso, porque espera que su modelo maneje los nuevos datos para los cuales ni siquiera puede esperar que el conjunto de entrenamiento sea representativo. Y para este fin se inventó el CV; para simular el comportamiento del modelo cuando se enfrenta con datos independientes. En el caso de la selección del modelo, CV le brinda no solo la calidad aproximada, sino también la distribución de aproximación de la calidad, por lo que tiene la gran ventaja de que puede decir "No sé, sean cuales sean los nuevos datos, cualquiera de ellos puede ser mejor."
fuente
Como mencionó, AIC y BIC son métodos para penalizar a los modelos por tener más variables regresoras. Se utiliza una función de penalización en estos métodos, que es una función del número de parámetros en el modelo.
Al aplicar AIC, la función de penalización es z (p) = 2 p .
Cuando se aplica BIC, la función de penalización es z (p) = p ln ( n ), que se basa en interpretar la penalización como derivada de información previa (de ahí el nombre Criterio de información bayesiano).
Cuando n es grande, los dos modelos producirán resultados bastante diferentes. Luego, el BIC aplica una penalización mucho mayor para los modelos complejos y, por lo tanto, dará lugar a modelos más simples que el AIC. Sin embargo, como se indica en Wikipedia en BIC :
fuente
Por lo que puedo decir, no hay mucha diferencia entre AIC y BIC. Ambas son aproximaciones matemáticamente convenientes que uno puede hacer para comparar modelos de manera eficiente. Si le dan diferentes "mejores" modelos, probablemente significa que tiene una alta incertidumbre del modelo, lo que es más importante de lo que debe preocuparse que si debe usar AIC o BIC. Personalmente, me gusta más BIC porque pide más (menos) de un modelo si tiene más (menos) datos para ajustarse a sus parámetros, algo así como un maestro que pide un estándar de rendimiento más alto (más bajo) si su estudiante tiene más (menos) ) tiempo para aprender sobre el tema. Para mí, esto parece ser algo intuitivo. Pero estoy seguro de que también existen argumentos igualmente intuitivos y convincentes para AIC, dada su forma simple.
Ahora, cada vez que haga una aproximación, seguramente habrá algunas condiciones cuando esas aproximaciones sean basura. Esto se puede ver ciertamente para AIC, donde existen muchos "ajustes" (AICc) para tener en cuenta ciertas condiciones que hacen que la aproximación original sea mala. Esto también está presente para BIC, porque existen varios otros métodos más exactos (pero aún así eficientes), como las aproximaciones de Fully Laplace a mezclas de g-priors de Zellner (BIC es una aproximación al método de aproximación de Laplace para integrales).
Un lugar donde ambos son basura es cuando tienes información previa sustancial sobre los parámetros dentro de cualquier modelo dado. AIC y BIC penalizan innecesariamente los modelos donde los parámetros se conocen parcialmente en comparación con los modelos que requieren que los parámetros se estimen a partir de los datos.
Y luego continúe asignando los mismos modelos de probabilidad (mismos parámetros, mismos datos, mismas aproximaciones, etc.), obtendré el mismo conjunto de valores BIC. Es solo al atribuir algún tipo de significado único a la letra lógica "M" que uno se ve envuelto en preguntas irrelevantes sobre "el verdadero modelo" (ecos de "la verdadera religión"). Lo único que "define" M son las ecuaciones matemáticas que lo utilizan en sus cálculos, y esto casi nunca destaca una sola definición. Igualmente podría poner una proposición de predicción sobre M ("el i-ésimo modelo dará las mejores predicciones"). Personalmente, no puedo ver cómo esto cambiaría cualquiera de las probabilidades y, por lo tanto, cuán bueno o malo será BIC (AIC también para ese asunto, aunque AIC se basa en una derivación diferente)
Y, además, lo que está mal con la declaración Si el verdadero modelo está en el conjunto estoy considerando, entonces hay una probabilidad del 57% que es el modelo B . Me parece bastante razonable, o podría ir a la versión más "blanda", hay un 57% de probabilidad de que el modelo B sea el mejor del conjunto que se está considerando
Un último comentario: creo que encontrará tantas opiniones sobre AIC / BIC como personas que las conocen.
fuente
Raramente se debe usar AIC, ya que en realidad solo es válido asintóticamente. Casi siempre es mejor utilizar AICc (AIC con una c orrection para el tamaño de muestra finita). La AIC tiende a parametrizar en exceso: ese problema se reduce considerablemente con la AICc. La principal excepción al uso de AICc es cuando las distribuciones subyacentes son fuertemente leptokurtic. Para más información sobre esto, vea el libro Model Selection de Burnham & Anderson.
fuente
AIC y BIC son criterios de información para comparar modelos. Cada uno intenta equilibrar el ajuste del modelo y la parsimonia y penaliza de manera diferente por el número de parámetros.
BIC es un criterio de información bayesiano, la fórmula es y favorece modelos más parsimoniosos que AIC
No he oído hablar de KIC.
fuente
Muy corto:
Tenga en cuenta que el error LOOCV también se puede calcular analíticamente a partir de los residuos y la diagonal de la matriz de sombreros , sin tener que realizar ninguna validación cruzada. Esto siempre sería una alternativa al AIC como una aproximación asintótica del error LOOCV.
Referencias
Stone M. (1977) Una equivalencia asintótica de elección del modelo mediante validación cruzada y el criterio de Akaike. Revista de la Royal Statistical Society Series B. 39, 44–7.
Shao J. (1997) Una teoría asintótica para la selección del modelo lineal. Statistica Sinica 7, 221-242.
fuente