¿Cuál es el punto de dividir los datos en partes de capacitación y prueba para evaluar las propiedades de predicción cuando tenemos AIC?

8

Asintóticamente, minimizar el AIC es equivalente a minimizar el MSE de validación cruzada de dejar uno fuera para los datos de sección transversal [ 1 ]. Entonces, cuando tenemos AIC, ¿por qué uno usa el método de dividir los datos en conjuntos de capacitación, validación y prueba para medir las propiedades predictivas de los modelos? ¿Cuáles son específicamente los beneficios de esta práctica?

Puedo pensar en una razón: si uno quiere evaluar el desempeño predictivo de los modelos, el análisis fuera de la muestra es útil. Pero aunque el AIC no es una medida de la precisión del pronóstico , generalmente se tiene una buena idea si algún modelo está alcanzando su máximo potencial (para los datos que se proporcionan) en términos de qué tan bien podrá predecir.

Erosennin
fuente
2
Un extracto de los documentos de sklearn : la selección de modelos basada en criterios de información es muy rápida, pero se basa en una estimación adecuada de los grados de libertad, se derivan para muestras grandes (resultados asintóticos) y se supone que el modelo es correcto, es decir, que los datos son realmente generado por este modelo. También tienden a romperse cuando el problema está mal condicionado (más características que muestras).
sascha
En realidad, no creo que AIC asuma un modelo correcto ( stats.stackexchange.com/questions/205222/… ). En cuanto al tamaño de la muestra y la AIC como resultado asintótico: nunca dividiría sus datos en tres partes cuando tenga pocos datos. Por lo tanto, un tamaño de muestra pequeño es problemático tanto para el análisis fuera de muestra como para AIC
Erosennin
1
@sascha tiene un punto allí: para que AIC se aproxime a la información KL esperada. pérdida bien uno de los modelos tiene que ser bastante bueno. No creo que nadie defienda el uso de AIC para comparar modelos malos para ver cuál es menos malo.
Scortchi - Restablece a Monica
2
tr(J(θ0)(I(θ0))1)ken la diapositiva 10 que @sascha enlazó. (Solo estaba buscando en nuestro sitio; parece que tenemos muchas afirmaciones sobre AIC y referencias que contienen aún más afirmaciones; pero poco más allá. De memoria, Pawitan, In All Likelihood , y Burnham & Anderson, Model Selection , dan derivaciones .)
Scortchi - Restablece a Monica
1
Ok, me salté la parte de TIC y perdí ese bit. Tienes toda la razón. Disculpas @sascha, y gracias por iluminarme :) Sí, acabo de echar un vistazo en Burnham & Anderson. Gran recurso!
Erosennin

Respuestas:

9

En la práctica, siempre uso validación cruzada o una simple división de prueba de tren en lugar de AIC (o BIC). No estoy muy familiarizado con la teoría detrás de AIC, pero dos preocupaciones principales me llevan a preferir estimaciones más directas de precisión predictiva:

  1. El número en sí mismo no le dice mucho sobre la precisión de un modelo. AIC puede proporcionar evidencia sobre cuál de varios modelos es el más preciso, pero no le dice qué tan exacto es el modelo en unidades del DV. Casi siempre estoy interesado en estimaciones concretas de precisión de este tipo, porque me dice cuán útil es un modelo en términos absolutos, y también cuánto más preciso es que un modelo de comparación.

  2. AIC, como BIC, necesita para cada modelo un recuento de parámetros o algún otro valor que mida la complejidad del modelo. No está claro qué debe hacer para esto en el caso de métodos predictivos menos tradicionales como la clasificación del vecino más cercano, los bosques aleatorios o el nuevo método de conjunto que garabateó en una servilleta de cóctel a mediados del mes pasado. Por el contrario, se pueden producir estimaciones de precisión para cualquier modelo predictivo, y de la misma manera.

Kodiólogo
fuente
1
+1 ¡Genial! # 2 es un gran argumento! # 1 aborda lo que escribo sobre que AIC no es una medida de la precisión del pronóstico, ¡gran punto! ¿Puedo preguntarle cómo compara "cuánto más preciso es que un modelo de comparación"? Recientemente pensé en esto al comparar el MSE de dos modelos. El MSE del Modelo 1 y el Modelo 2 fue 10 y 20, respectivamente. ¿Cómo interpreto cuánto más preciso es el Modelo 1? Estoy pensando que no puede ser tan simple como 20/10, porque comparar esto debe / debe tener en cuenta la escala del DV.
Erosennin
2
Solo miro las dos cifras de precisión respectivas (MSE o lo que sea), en lugar de tratar de hacer una puntuación de comparación. Además, siempre ayuda tener un puntaje de precisión para un modelo trivial (es decir, un modelo que no usa predictores) si ese no era uno de los modelos que estaba comparando.
Kodiólogo
(+1) Hay una industria artesanal en la invención de AIC, cuasi-AIC efectivos y similares para situaciones que no son estimaciones de máxima verosimilitud con un no fijo. parámetros
Scortchi - Restablece a Monica
@Kodiologist: Creo que sería muy interesante con un puntaje de comparación. De esta manera, podemos comparar modelos realizados en diferentes conjuntos de datos, por ejemplo, evaluar el rendimiento de los modelos antiguos frente a los nuevos modelos cuando hay nuevos datos disponibles.
Erosennin
Con respecto a 2. hay una manera relativamente fácil de obtener los grados de libertad del modelo (aunque en algunos casos puede llevar un tiempo moderado de calcular, en muchas situaciones comunes hay un atajo); cual esk=iy^iyi; en un sentido directo literal, esto mide los grados de libertad del modelo para aproximar los datos. Véase, por ejemplo, el artículo de Ye JASA de 1998. StasK enlaza a una referencia completa en esta respuesta, por ejemplo. ...
ctd