Significado de 'número de parámetros' en AIC

21

Al calcular AIC,

AIC=2k2lnL

k significa 'número de parámetros'. Pero, ¿qué cuenta como parámetro? Así por ejemplo en el modelo

y=ax+b

¿A y b siempre se cuentan como parámetros? ¿Qué sucede si no me importa el valor de la intercepción, puedo ignorarla o todavía cuenta?

Y si

y=af(c,x)+b

donde es una función de c y x, ¿ahora cuento 3 parámetros?f

Bob acto secundario
fuente
99
Esta es una buena pregunta, porque hay una sutileza: es el número de parámetros identificables a estimar. Por ejemplo, aunque en el modelo de regresión se escriben cinco parámetros, sin embargo . (Este modelo es equivalente a con y \ alpha_2 = \ beta_2 + \ beta_3 , que explícitamente necesita solo cuatro parámetros .)kYN(β0+β1X1+β2X2+β3(X1+X2),σ2) Y N ( β 0 + α 1 X 1 + α 2 X 2 , σ 2 ) α 1 = β 1 + β 3 α 2 = β 2 + β 3k=4YN(β0+α1X1+α2X2,σ2)α1=β1+β3α2=β2+β3
whuber
3
Estrictamente, cuenta todos los parámetros libres identificables: parámetros medios, parámetros de forma y escala, lo que sea (y es importante para AIC C ), pero para AIC no tiene ninguna consecuencia si omite parámetros comunes a los modelos que se comparan. Entonces, por ejemplo, en la regresión, debe contar el parámetro de varianza. Por lo tanto, según mi recuento, todos los recuentos de parámetros en su pregunta son uno corto, pero si hay exactamente uno en todos los modelos, no está de más descartarlo para AIC. R cuenta explícitamente el parámetro de varianza al calcular AIC en modelos de regresión.
Glen_b -Reinstate Monica
@whuber ¿Por qué este excelente comentario no se publica como respuesta? :)
Alexis
Gracias, Alexis. Publiqué este pensamiento como un comentario porque la idea está adecuadamente cubierta en la respuesta de P Schnell: solo quería enfatizarlo un poco más.
whuber

Respuestas:

17

Como se mencionó mugen, representa el número de parámetros estimados . En otras palabras, es la cantidad de cantidades adicionales que necesita saber para especificar completamente el modelo. En el modelo de regresión lineal simple , puede estimar , o ambos. Cualquier cantidad que no calcule debe fijarla. No hay "ignorar" un parámetro en el sentido de que no lo conoce y no le importa. El modelo más común que no estima tanto como es el modelo sin intersección, donde fijamos . Esto tendrá 1 parámetro. Podrías arreglar fácilmente oy = a x + b a b a b b = 0 a = 2 b = 1 σk

y=ax+b
ababb=0a=2b=1si tienes alguna razón para creer que refleja la realidad. (Punto fino: también es un parámetro en una regresión lineal simple, pero dado que está presente en cada modelo, puede descartarlo sin afectar las comparaciones de AIC).σ

Si su modelo es el número de parámetros depende de si fija alguno de estos valores y de la forma de . Por ejemplo, si queremos estimar y saber que , cuando escribimos el modelo tenemos con tres parámetros desconocidos. Sin embargo, si , entonces tenemos el modelo que realmente solo tiene dos parámetros: y .f a , b , c f ( c , x ) = x c y = a x c + b f ( c , x ) = c x y = a c x + b a c b

y=af(c,x)+b
fa,b,cf(c,x)=xc
y=axc+b
f(c,x)=cx
y=acx+b
acb

Es crucial que sea ​​una familia de funciones indexadas por . Si todo lo que sabe es que es continua y depende de y , entonces no tiene suerte porque hay innumerables funciones continuas.c f ( c , x ) c xf(c,x)cf(c,x)cx

P Schnell
fuente
2
(+1) Quizás valga la pena mencionar que a lo largo de "estimación" significa "estimación por máxima verosimilitud".
Scortchi - Restablece a Monica
¿Eso realmente importa? De hecho, mi es una simulación enorme, imposible de separar analíticamente y que lleva horas calcular. Lo intento con unos 20 valores diferentes de porque eso es todo para lo que tenemos tiempo, y me quedo con el valor de que da el mejor al final del día. Por lo tanto, en una forma de hablar, he estimado lo mejor que puedo, aunque no como lo harías en una regresión. ¿Seguramente todavía cuenta como un parámetro para AIC? c c r 2 cf(c,x)ccr2c
Sideshow Bob
2
@SideshowBob: Sí, cuando compara dos modelos, la diferencia en las probabilidades de registro maximizadas es un estimador sesgado de la diferencia en la pérdida de información esperada de Kullback-Leibler y el término de penalización en AIC corrige aproximadamente ese sesgo.
Scortchi - Restablece a Monica
1
@SideshowBob: Debo mencionar que hay modificaciones de AIC para las ecuaciones de estimación generalizadas y similares, usan cuasi-verosimilitud maximizada y un término de penalización bastante más complejo.
Scortchi - Restablece a Monica
4

AIC=2k2ln(L)

(ver aquí )

k

k

No me siento lo suficientemente informado como para responder su segunda pregunta, lo dejaré para otro miembro de la comunidad.

mugen
fuente
1
λ
1
Si, ciertamente.
PA6OTA
1

Primero, para aquellos que pueden no estar familiarizados con AIC: el Criterio de Información de Akaike (AIC) es una métrica simple diseñada para comparar la "bondad" de los modelos.

Según AIC, cuando se trata de elegir entre dos modelos diferentes que se aplican a las mismas variables de entrada y respuesta , es decir, modelos diseñados para resolver el mismo problema, el modelo con la AIC más baja se considera "mejor".

k

cf(c,x)k

arielf
fuente