Normalmente uso BIC porque entiendo que valora más la parsimonia que AIC. Sin embargo, he decidido utilizar un enfoque más completo ahora y me gustaría utilizar AIC también. Sé que Raftery (1995) presentó buenas pautas para las diferencias BIC: 0-2 es débil, 2-4 es evidencia positiva de que un modelo es mejor, etc.
Miré en los libros de texto y parecen extraños en AIC (parece que una diferencia mayor es débil y una diferencia menor en AIC significa que un modelo es mejor). Esto va en contra de lo que sé que me han enseñado. Tengo entendido que quiere un AIC más bajo.
¿Alguien sabe si las pautas de Raftery se extienden también a AIC, o dónde podría citar algunas pautas para la "fuerza de la evidencia" para un modelo frente a otro?
Y sí, los puntos de corte no son geniales (los encuentro irritantes), pero son útiles cuando se comparan diferentes tipos de evidencia.
fuente
Respuestas:
AIC y BIC tienen la misma interpretación en términos de comparación de modelos. Es decir, la mayor diferencia en AIC o BIC indica una evidencia más fuerte para un modelo sobre el otro (cuanto más bajo, mejor). Es solo que el AIC no penaliza el número de parámetros tan fuertemente como el BIC. También hay una corrección en el AIC (el AICc) que se utiliza para tamaños de muestra más pequeños. Puede encontrar más información sobre la comparación de AIC / BIC aquí .
fuente
Estás hablando de dos cosas diferentes y las estás mezclando. En el primer caso tiene dos modelos (1 y 2) y obtuvo su AIC como y A I C 2 . SI desea comparar estos dos modelos en función de sus AIC, el modelo con AIC más bajo sería el preferido, es decir, si A I C 1 < A I C 2, entonces elige el modelo 1 y viceversa. En el segundo caso, tiene un conjunto de modelos candidatos como modelos ( 1 , 2 , . . . , N )AIC1 AIC2 AIC1<AIC2
(1,2,...,n) y para cada modelo, calcula las diferencias de AIC como , donde A I C i es el AIC para el i ésimo modelo y A I C m i n es el mínimo de AIC entre Todos los modelos. Ahora el modelo con Δ i > 10 no tiene soporte y puede omitirse de una consideración adicional como se explica en Selección de modelo e inferencia multimodelo: un enfoque teórico de información prácticaΔi=AICi−AICmin AICi i AICmin Δi>10 por Kenneth P. Burnham, David R. Anderson, página 71. Entonces, cuanto más grande es el , más débil sería su modelo. Aquí el mejor modelo tiene Δ i ≡ Δ m i n ≡ 0.Δi Δi≡Δmin≡0.
fuente
Generalmente, nunca uso AIC o BIC de manera objetiva para describir el ajuste adecuado para un modelo. Yo no utilizo estos circuitos integrados para comparar el ajuste relativo de los dos modelos predictivos. En cuanto a si se trata de un AIC de "2" o "4", es completamente contextual. Si desea tener una idea de cómo encaja un modelo "bueno", siempre puede (debería) usar una simulación. Su comprensión de la AIC es correcta. AIC recibe una contribución positiva de los parámetros y una contribución negativa de la probabilidad. Lo que intenta hacer es maximizar la probabilidad sin cargar su modelo con un montón de parámetros. Entonces, mi opinión de estallido de burbuja es que los cortes para AIC no son buenos fuera de contexto.
fuente
Aquí hay una pregunta relacionada ¿ cuándo-es-apropiado-seleccionar-modelos-minimizando-el-aic? . Le da una idea general de lo que las personas no irreconocibles en el mundo académico consideran apropiado escribir y qué referencias dejar como importantes.
En general, lo que importa son las diferencias entre las probabilidades o las AIC, no sus valores absolutos. Te has perdido la palabra importante "diferencia" en tu "BIC: 0-2 es débil" en la pregunta - revisa la TABLA 6 de Raftery - y es extraño que nadie quiera corregir eso.
Yo mismo me enseñaron a buscar MAICE (Estimación mínima de AIC, como Akaike lo llamó). ¿Y qué? Esto es lo que una persona famosa le escribió a una mujer desconocida:
Mis maestros nunca escucharon sobre documentos con títulos como "Una prueba de si dos AIC difieren significativamente" y ni siquiera recuerdo que alguna vez llamaron a AIC una estadística, que tendría una distribución de muestreo y otras propiedades. Me enseñaron que AIC es un criterio para minimizar, si es posible de forma automática.
Otra cuestión importante, que creo que IrishStat expresó hace unos años aquí (de memoria, así que disculpa si me equivoco al no encontrar esa respuesta) es que AIC, BIC y otros criterios se han derivado para diferentes propósitos y bajo diferentes condiciones (supuestos), por lo que a menudo no puede usarlos indistintamente si su propósito es pronosticar, por ejemplo. No puedes simplemente preferir algo inapropiado.
Mis fuentes muestran que usé una cita de Burnham y Anderson (2002, p.70) para escribir que el delta (diferencias de AIC) dentro de 0-2 tiene un apoyo sustancial; delta dentro de 4-7 considerablemente menos soporte y delta mayor de 10 esencialmente sin soporte. Además, escribí que "los autores también discutieron las condiciones bajo las cuales estas pautas pueden ser útiles". El libro se cita en la respuesta de Stat, que voté como el más relevante.
fuente
Con respecto a los criterios de información, esto es lo que dice SAS :
Existen dos procedimientos de prueba de modelo comparativo: a) prueba de Vuong yb) prueba de Clarke no paramétrica. Vea este documento para más detalles.
fuente