Acabo de encontrarme con el "criterio de información de Akaike", y noté esta gran cantidad de literatura sobre la selección de modelos (también parecen existir cosas como BIC).
¿Por qué los métodos modernos de aprendizaje automático no aprovechan estos criterios de selección de modelos BIC y AIC?
Respuestas:
Se utilizan AIC y BIC, por ejemplo, en regresión gradual. En realidad, son parte de una clase más amplia de "heurística", que también se utilizan. Por ejemplo, el DIC (Criterio de información de desviación) se usa a menudo en la selección del modelo bayesiano.
Sin embargo, son básicamente "heurísticas". Si bien se puede demostrar que tanto el AIC como el BIC convergen asintóticamente hacia los enfoques de validación cruzada (creo que el AIC va hacia el CV de omisión y el BIC hacia algún otro enfoque, pero no estoy seguro), son conocidos por infra penalizar y penalizar en exceso respectivamente. Es decir, al usar AIC, a menudo obtendrá un modelo, que es más complicado de lo que debería ser, mientras que con BIC a menudo obtiene un modelo que es demasiado simplista.
Como ambos están relacionados con el CV, el CV suele ser una mejor opción, que no sufre estos problemas.
Luego, finalmente está el problema del número de parámetros que se requieren para BIC y AIC. Con los aproximadores de funciones generales (p. Ej., KNN) en las entradas de valor real, es posible "ocultar" parámetros, es decir, construir un número real que contenga la misma información que dos números reales (piense, por ejemplo, en intersectar los dígitos). En ese caso, ¿cuál es el número real de parámetros? Por otro lado, con modelos más complicados, puede tener restricciones en sus parámetros, digamos que solo puede ajustar parámetros tales queθ1>θ2 (ver, por ejemplo, aquí ). O puede que no sea identificable, en cuyo caso los valores múltiples de los parámetros realmente dan el mismo modelo. En todos estos casos, el simple conteo de parámetros no proporciona una estimación adecuada.
Dado que muchos algoritmos contemporáneos de aprendizaje automático muestran estas propiedades (es decir, aproximación universal, número incierto de parámetros, no identificabilidad), AIC y BIC son menos útiles para este modelo, de lo que pueden parecer a primera vista.
EDITAR :
Algunos puntos más que podrían aclararse:
fuente