¿BIC intenta encontrar un modelo verdadero?

17

Esta pregunta es un seguimiento o intento de aclarar la posible confusión con respecto a un tema que yo y muchos otros encontramos un poco difícil, con respecto a la diferencia entre AIC y BIC. En una muy buena respuesta de @Dave Kellen sobre este tema ( /stats//a/767/30589 ) leemos:

Su pregunta implica que AIC y BIC intentan responder la misma pregunta, lo cual no es cierto. AIC intenta seleccionar el modelo que describa más adecuadamente una realidad desconocida de alta dimensión. Esto significa que la realidad nunca está en el conjunto de modelos candidatos que se están considerando. Por el contrario, BIC intenta encontrar el modelo VERDADERO entre el conjunto de candidatos. Me resulta bastante extraño suponer que la realidad se instancia en uno de los modelos que los investigadores construyeron en el camino. Este es un problema real para BIC.

En un comentario a continuación, por @ gui11aume, leemos:

(-1) Gran explicación, pero me gustaría cuestionar una afirmación. @Dave Kellen ¿Podría dar una referencia de dónde está la idea de que el modelo TRUE debe estar en el set para BIC? Me gustaría investigar sobre esto, ya que en este libro los autores dan una prueba convincente de que este no es el caso. - gui11aume mayo 27 '12 a las 21:47

Parece que esta afirmación proviene del propio Schwarz (1978), aunque la afirmación no era necesaria: por los mismos autores (como @ gui11aume enlaza), leemos de su artículo "Inferencia multimodelo: comprensión de AIC y BIC en la selección de modelos" ( Burnham y Anderson, 2004):

¿La derivación de BIC supone la existencia de un modelo verdadero o, más estrictamente, se supone que el modelo verdadero está en el conjunto de modelos cuando se usa BIC? (La derivación de Schwarz especificó estas condiciones.) ... La respuesta ... no. Es decir, BIC (como base para una aproximación a una determinada integral bayesiana) se puede derivar sin suponer que el modelo subyacente a la derivación es verdadero (ver, por ejemplo, Cavanaugh y Neath 1999; Burnham y Anderson 2002: 293-5). Ciertamente, al aplicar BIC, el conjunto de modelos no necesita contener el modelo verdadero (no existente) que representa la realidad completa. Además, la convergencia en la probabilidad del modelo seleccionado por BIC a un modelo targbet (bajo la idealización de una muestra iid) no significa lógicamente que ese modelo objetivo debe ser la verdadera distribución generadora de datos).

Entonces, creo que vale la pena una discusión o alguna aclaración (si se necesita más) sobre este tema. En este momento, todo lo que tenemos es un comentario de @ gui11aume (¡gracias!) Bajo una respuesta muy votada con respecto a la diferencia entre AIC y BIC.

Erosennin
fuente
1
Para enfocar mejor la pregunta, AIC quizás podría eliminarse del título ya que, si entiendo correctamente, esta pregunta es sobre si el verdadero modelo debe estar en el conjunto de candidatos cuando se usa BIC.
Juho Kokkala
@JuhoKokkala: estoy de acuerdo.
Erosennin
44
Para mí, la conclusión es que, en la mayoría de las aplicaciones prácticas, BIC da como resultado una adaptación insuficiente y AIC evalúa más correctamente el rendimiento probable del modelo en los nuevos datos que no están disponibles. Pero si usa AIC o BIC si está seleccionando entre, por ejemplo, 3 modelos / conjuntos de características de la competencia, el modelo resultante puede sobreajustar. AIC y BIC funcionan mejor cuando el número de modelos potenciales es bajo o los modelos están conectados por un pequeño número de parámetros (por ejemplo, penalizaciones).
Frank Harrell
Gracias @Erosennin por desenterrar la referencia. Ahora entiendo de dónde viene la idea de que debe incluirse el modelo VERDADERO.
gui11aume
@FrankHarrell: ¿Podría explicar qué quiere decir con "aplicaciones prácticas"? Si entiendo a Burnham y Anderson correctamente, parece que BIC resultará en un ajuste insuficiente cuando los datos sean escasos. Cuando tenemos muchos datos, BIC realmente elegirá / buscará un modelo cuasi-verdadero más complejo que AIC. AIC y BIC tienen diferentes "modelos objetivo". Me encantaría una explicación de lo que está diciendo, aunque solo sea para señalarme algún artículo / libro.
Erosennin

Respuestas:

11

p(M1|y)p(M2|y)>1ASIC(M1)<SIC(M2)
Ap(Mj|y)jy

IC(k)=2Tl(θ^;y)+kg(T)
l(θ^;y)θ^kT
g(T)0as
Tg(T)as
gAIC(T)=2T,gSIC(T)=lnTT

Elliott, G. y A. Timmermann (2016, abril). Previsión económica. Princeton University Press.

Schwarz, Gedeón. "Estimación de la dimensión de un modelo". Los anales de las estadísticas 6.2 (1978): 461-464.

Matthias Schmidtblaicher
fuente