No puede comparar los dos modelos, ya que no modelan la misma variable (como se reconoce correctamente). Sin embargo, AIC debería funcionar al comparar modelos anidados y no anidados.
Solo un recordatorio antes de continuar: un log-verosimilitud gaussiano viene dado por
log(L(θ))=−|D|2log(2π)−12log(|K|)−12(x−μ)TK−1(x−μ),
es la estructura de covarianza de su modelo, | D | el número de puntos en sus conjuntos de datos, μ la respuesta media yx su variable dependiente.K|D|μx
Más específicamente, se calcula que AIC es igual a , donde k es el número de efectos fijos en su modelo y L su función de probabilidad [1]. Prácticamente compara el equilibrio entre la varianza ( 2 k ) y el sesgo ( 2 log ( L ) ) en sus supuestos de modelado. Como tal, en su caso, compararía dos estructuras de probabilidad de registro diferentes cuando se trata del término de sesgo. Esto se debe a que cuando calcula su probabilidad de registro prácticamente observa dos términos: un término de ajuste, denotado por - 12k−2log(L)kL2 k2 log( L ), y un término de penalización de complejidad, denotado por-1- 12( x - μ )TK- 1( x - μ ). Por lo tanto, verá que su término de ajuste es completamente diferente entre los dos modelos; en el primer caso, compara los residuos de los datos sin procesar y en el otro caso los residuos de los datos registrados.- 12Iniciar sesión( | KEl | )
Aparte de Wikipedia, AIC también se define para equiparar: [3]; Esta forma hace aún más obvio por qué los diferentes modelos con diferentes variables dependientes no son comparables. El RSS es el caso dos es simplemente incomparable entre los dos.El | D | Iniciar sesión( R SSEl | D |) +2k
El artículo original de Akaike [4] es bastante difícil de entender (creo). Se basa en la divergencia KL (la diferencia entre dos distribuciones más o menos hablando) y funciona para demostrar cómo puede aproximar la distribución verdadera desconocida de sus datos y compararlos con la distribución de los datos que asume su modelo. Es por eso que "un puntaje AIC más pequeño es mejor" ; está más cerca de la distribución verdadera aproximada de sus datos.
Entonces, para reunir todo, las cosas obvias para recordar cuando se usa AIC son tres [2,5]:
No puede usarlo para comparar modelos de diferentes conjuntos de datos.
Debe usar las mismas variables de respuesta para todos los modelos candidatos.
Deberías tener , porque de lo contrario no obtiene una buena consistencia asintótica.El | D | > > K
Lamento comunicarle las malas noticias, pero usar AIC para mostrar que está eligiendo una variable dependiente sobre otra no es algo estadísticamente sólido. Verifique la distribución de sus residuos en ambos modelos, si el caso de datos registrados tiene residuos distribuidos normalmente y el caso de datos sin procesar no tiene, tiene toda la justificación que pueda necesitar. También es posible que desee verificar si sus datos sin procesar corresponden a un registro lognormal, que también podría ser una justificación suficiente.
Para suposiciones matemáticas estrictas, el juego es la divergencia KL y la teoría de la información ...
Ah, y algunas referencias:
- http://en.wikipedia.org/wiki/Akaike_information_criterion
- Criterio de información de Akaike, Shuhua Hu, (Presentación p.17-18)
- Análisis estadístico multivariado aplicado, Johnson & Wichern, 6ª ed. (pág. 386-387)
- Una nueva mirada a la identificación del modelo estadístico, H. Akaike, IEEE Transactions on Automatic Control 19 (6): 716–723 (1974)
- Tutorial de selección de modelos # 1: Criterio de información de Akaike, D. Schmidt y E. Makalic, (Presentación p.39)
uu0
uu0
AIC (uu0)+2*sum (log (usili))
AIC (uu1)
fuente
AIC()
Este extracto de Akaike 1978 proporciona una cita en apoyo de la solución de @probabilityislogic.
Akaike, H. 1978. Sobre la probabilidad de un modelo de serie temporal. Revista de la Real Sociedad Estadística. Serie D (El Estadístico) 27: 217-235.
fuente