Los valores típicos de AIC que he visto para modelos logísticos están en miles, al menos cientos. Por ejemplo, en http://www.r-bloggers.com/how-to-perform-a-logistic-regression-in-r/ el AIC es 727.39
Si bien siempre se dice que AIC debe usarse solo para comparar modelos, quería entender qué significa un valor AIC particular. Según la fórmula,
Donde, L = probabilidad máxima del estimador MLE, K es el número de parámetros
En el ejemplo anterior, K = 8
entonces, con aritmética simple:
727.9 = -2*log(L)+ 2*8
Hence, 711.39 = -2*log(L)
Hence, log (L)= 711.39/-2 = -355.695
Hence, L = exp(-355.695) = 3.3391E-155
Entonces, si mi comprensión es correcta, esta es la probabilidad de que la función identificada por MLE se ajuste a los datos. Esto parece realmente muy muy bajo.
¿Que me estoy perdiendo aqui?
Respuestas:
No existe una probabilidad "típica" o correcta para un modelo. Lo mismo con AIC , que es la probabilidad de registro negativa penalizada por una serie de parámetros. Un valor más bajo de AIC sugiere un modelo "mejor", pero es una medida relativa del ajuste del modelo. Se utiliza para la selección de modelos, es decir, le permite comparar diferentes modelos estimados en el mismo conjunto de datos.
Recuerde que GEP Box dice que "todos los modelos están mal, pero algunos son útiles", no está interesado en encontrar un modelo que se ajuste perfectamente a sus datos porque es imposible y, en muchos casos, ese modelo sería muy pobre y sobreajustado . En cambio, está buscando el mejor que pueda obtener, el más útil. La idea general detrás de AIC es que el modelo con menor número de parámetros es mejor, lo que de alguna manera es consistente con el argumento de afeitar de Occam , que preferimos un modelo simple sobre uno complicado.
Puede consultar los siguientes documentos:
Anderson, D. y Burnham, K. (2006). AIC mitos y malentendidos.
Burnham, KP y Anderson, DR (2004). Inferencia multimodelo. Comprensión de AIC y BIC en la selección de modelos. Sociological Methods & Research, 33 (2), 261-304.
y esos hilos:
¿Cuál es la diferencia entre "verosimilitud" y "probabilidad"?
¿Hay alguna razón para preferir el AIC o BIC sobre el otro?
fuente
fuente
Las cantidades como el AIC, que implican el uso de la probabilidad logarítmica, solo son significativas en relación con otras cantidades similares . Recuerde que la función de probabilidad se define solo hasta una constante de escala, por lo que se puede ampliar o reducir a voluntad. En consecuencia, la probabilidad logarítmica solo se define hasta una constante de ubicación, y puede desplazarse hacia arriba o hacia abajo a voluntad. Esto también es válido para el AIC, ya que esta cantidad es solo la probabilidad logarítmica, desplazada por una penalización en el número de parámetros. Esa es la razón por la que se dice que AIC solo debe usarse para comparar modelos.
fuente
Usted ha señalado correctamente que si calcula de nuevo la probabilidad, utilizando el AIC informado por R, obtendrá probabilidades ridículamente bajas. La razón es que el valor de AIC informado por R (llámelo AICrep) no es el verdadero AIC (AICtrue). AICrep y AICtrue difieren en una constante que depende de los datos medidos pero que es independiente del modelo elegido. Por lo tanto, una probabilidad calculada a partir de AICrep será incorrecta. Son las diferencias en los AIC, cuando se utilizan diferentes modelos para ajustar los mismos datos, lo que es útil para seleccionar el mejor modelo.
fuente