Pautas de AIC en la selección del modelo

32

Normalmente uso BIC porque entiendo que valora más la parsimonia que AIC. Sin embargo, he decidido utilizar un enfoque más completo ahora y me gustaría utilizar AIC también. Sé que Raftery (1995) presentó buenas pautas para las diferencias BIC: 0-2 es débil, 2-4 es evidencia positiva de que un modelo es mejor, etc.

Miré en los libros de texto y parecen extraños en AIC (parece que una diferencia mayor es débil y una diferencia menor en AIC significa que un modelo es mejor). Esto va en contra de lo que sé que me han enseñado. Tengo entendido que quiere un AIC más bajo.

¿Alguien sabe si las pautas de Raftery se extienden también a AIC, o dónde podría citar algunas pautas para la "fuerza de la evidencia" para un modelo frente a otro?

Y sí, los puntos de corte no son geniales (los encuentro irritantes), pero son útiles cuando se comparan diferentes tipos de evidencia.

Tom Carpenter
fuente
1
¿Es este (pdf) , el papel Raftery al que te refieres?
gung - Restablece a Monica
44
Los lectores aquí pueden estar interesados ​​en leer el siguiente excelente hilo de CV: ¿Hay alguna razón para preferir el AIC o BIC sobre el otro?
gung - Restablece a Monica
1
¿A qué libros de texto se refiere cuando dice " Busqué en los libros de texto y parecen extraños en AIC (parece que una diferencia mayor es débil y una diferencia menor en AIC significa que un modelo es mejor) " --- y qué hacen realmente ¿decir?
Glen_b -Reinstale a Mónica el
1
Tu segundo párrafo no está claro. Probablemente quiera decir esto: si bien las grandes diferencias sugieren que el modelo con los valores más pequeños es preferible, las diferencias más pequeñas son difíciles de evaluar. Además, los estadísticos aún no están de acuerdo sobre qué diferencias son "pequeñas" o "grandes" - Singer y Willet (2003, p.122)
Hibernando el
1
En cuanto a su tercer párrafo, si desea adoptar las categorías de fuerza probatoria presentadas por Jeffreys (1961, p. 432), puedo darle la referencia completa.
Hibernando el

Respuestas:

23

AIC y BIC tienen la misma interpretación en términos de comparación de modelos. Es decir, la mayor diferencia en AIC o BIC indica una evidencia más fuerte para un modelo sobre el otro (cuanto más bajo, mejor). Es solo que el AIC no penaliza el número de parámetros tan fuertemente como el BIC. También hay una corrección en el AIC (el AICc) que se utiliza para tamaños de muestra más pequeños. Puede encontrar más información sobre la comparación de AIC / BIC aquí .

dmartin
fuente
55
+1. Solo para agregar / aclarar: AIC (y AICc) emplea KL-divergencia. Por lo tanto, exactamente porque AIC refleja información "adicional" cuanto más pequeña, mejor. En otras palabras, como nuestro tamaño de muestra , el modelo con el puntaje mínimo de AIC poseerá la menor divergencia de Kullback-Leibler y, por lo tanto, será el modelo más cercano al modelo "verdadero". N
usεr11852 dice Reinstate Monic
28

Estás hablando de dos cosas diferentes y las estás mezclando. En el primer caso tiene dos modelos (1 y 2) y obtuvo su AIC como y A I C 2 . SI desea comparar estos dos modelos en función de sus AIC, el modelo con AIC más bajo sería el preferido, es decir, si A I C 1 < A I C 2, entonces elige el modelo 1 y viceversa. En el segundo caso, tiene un conjunto de modelos candidatos como modelos ( 1 , 2 , . . . , N )AIC1AIC2AIC1<AIC2
(1,2,...,n)y para cada modelo, calcula las diferencias de AIC como , donde A I C i es el AIC para el i ésimo modelo y A I C m i n es el mínimo de AIC entre Todos los modelos. Ahora el modelo con Δ i > 10 no tiene soporte y puede omitirse de una consideración adicional como se explica en Selección de modelo e inferencia multimodelo: un enfoque teórico de información prácticaΔi=AICiAICminAICiiAICminΔi>10por Kenneth P. Burnham, David R. Anderson, página 71. Entonces, cuanto más grande es el , más débil sería su modelo. Aquí el mejor modelo tiene Δ iΔ m i n0.ΔiΔiΔmin0.

Stat
fuente
1
¡Ajá! Esto eliminó totalmente el bit "más grande que". ¡Gracias!
Tom Carpenter
7

Generalmente, nunca uso AIC o BIC de manera objetiva para describir el ajuste adecuado para un modelo. Yo no utilizo estos circuitos integrados para comparar el ajuste relativo de los dos modelos predictivos. En cuanto a si se trata de un AIC de "2" o "4", es completamente contextual. Si desea tener una idea de cómo encaja un modelo "bueno", siempre puede (debería) usar una simulación. Su comprensión de la AIC es correcta. AIC recibe una contribución positiva de los parámetros y una contribución negativa de la probabilidad. Lo que intenta hacer es maximizar la probabilidad sin cargar su modelo con un montón de parámetros. Entonces, mi opinión de estallido de burbuja es que los cortes para AIC no son buenos fuera de contexto.

AdamO
fuente
¿Qué pasa si sus modelos no permiten ninguna simulación?
Estadísticas
66
Tut-tut! ¿Cómo es eso posible? Uno puede arrancar el mundo.
AdamO
Dios, suerte con eso ... simular el mundo jajaja
Estadísticas
2
@Stat Soy muy serio cuando digo que no puedo concebir una situación en la que sería imposible simular datos de un modelo. Como mínimo, el arranque del conjunto de datos de entrenamiento califica como un enfoque de simulación válido.
AdamO
Cuando bootstrapping es difícil, la validación cruzada o incluso un simple jackknifing deberían funcionar. Además, el promedio de modelos proporciona un medio para conciliar información de modelos con AIC similares.
N Brouwer
2

Aquí hay una pregunta relacionada ¿ cuándo-es-apropiado-seleccionar-modelos-minimizando-el-aic? . Le da una idea general de lo que las personas no irreconocibles en el mundo académico consideran apropiado escribir y qué referencias dejar como importantes.

En general, lo que importa son las diferencias entre las probabilidades o las AIC, no sus valores absolutos. Te has perdido la palabra importante "diferencia" en tu "BIC: 0-2 es débil" en la pregunta - revisa la TABLA 6 de Raftery - y es extraño que nadie quiera corregir eso.

Yo mismo me enseñaron a buscar MAICE (Estimación mínima de AIC, como Akaike lo llamó). ¿Y qué? Esto es lo que una persona famosa le escribió a una mujer desconocida:

Dear Miss -- 
I have read about sixteen pages of your manuscript ... I suffered exactly the same 
treatment at the hands of my teachers who disliked me for my independence and passed 
over me when they wanted assistants ... keep your manuscript for your sons and
daughters, in order that they may derive consolation from it and not give a damn for
what their teachers tell them or think of them. ... There is too much education
altogether.

Mis maestros nunca escucharon sobre documentos con títulos como "Una prueba de si dos AIC difieren significativamente" y ni siquiera recuerdo que alguna vez llamaron a AIC una estadística, que tendría una distribución de muestreo y otras propiedades. Me enseñaron que AIC es un criterio para minimizar, si es posible de forma automática.

Otra cuestión importante, que creo que IrishStat expresó hace unos años aquí (de memoria, así que disculpa si me equivoco al no encontrar esa respuesta) es que AIC, BIC y otros criterios se han derivado para diferentes propósitos y bajo diferentes condiciones (supuestos), por lo que a menudo no puede usarlos indistintamente si su propósito es pronosticar, por ejemplo. No puedes simplemente preferir algo inapropiado.

Mis fuentes muestran que usé una cita de Burnham y Anderson (2002, p.70) para escribir que el delta (diferencias de AIC) dentro de 0-2 tiene un apoyo sustancial; delta dentro de 4-7 considerablemente menos soporte y delta mayor de 10 esencialmente sin soporte. Además, escribí que "los autores también discutieron las condiciones bajo las cuales estas pautas pueden ser útiles". El libro se cita en la respuesta de Stat, que voté como el más relevante.

Hibernando
fuente
0

Con respecto a los criterios de información, esto es lo que dice SAS :

"Tenga en cuenta que los criterios de información como Akaike (AIC), Schwarz (SC, BIC) y QIC se pueden usar para comparar modelos competitivos no anidados, pero no proporcionan una prueba de la comparación. En consecuencia, no pueden indicar si un modelo es significativamente mejor que otro. Los procedimientos GENMOD, LOGISTIC, GLIMMIX, MIXED y otros proporcionan medidas de criterios de información ".

Existen dos procedimientos de prueba de modelo comparativo: a) prueba de Vuong yb) prueba de Clarke no paramétrica. Vea este documento para más detalles.

Métrica
fuente
I find the mathematical notation employed in the cited "paper" (i.e. presentation) non-comprehensible without comments. In particular, what does the line of dashes symbolize? Implication?
Adam Ryczkowski