¿Por qué el criterio de información de Akaike no se usa más en el aprendizaje automático?

16

Acabo de encontrarme con el "criterio de información de Akaike", y noté esta gran cantidad de literatura sobre la selección de modelos (también parecen existir cosas como BIC).

¿Por qué los métodos modernos de aprendizaje automático no aprovechan estos criterios de selección de modelos BIC y AIC?

eco
fuente
9
porque nadie está calculando las probabilidades?
Aksakal
1
¿Qué quiere decir con "métodos modernos de aprendizaje automático"? Por lo que usé, AIC y BIC se usan con frecuencia.
Ferdi
44
También por qué el -1? Recuerde que no hay preguntas estúpidas: cada pregunta trata de arrojar luz sobre el universo
repita el
44
@echo: no voté en contra, pero creo que su pregunta mejoraría si pudiera obtener / respaldar la afirmación principal (que los métodos de aprendizaje automático aprovechan estos criterios de selección de modelos BIC y AIC)
usuario603
2
@ Aksakal Gracias. Creo que es mejor si las preguntas construidas en torno a un reclamo radical pudieran generar ese reclamo. Me refiero como una regla general.
user603

Respuestas:

15

Se utilizan AIC y BIC, por ejemplo, en regresión gradual. En realidad, son parte de una clase más amplia de "heurística", que también se utilizan. Por ejemplo, el DIC (Criterio de información de desviación) se usa a menudo en la selección del modelo bayesiano.

Sin embargo, son básicamente "heurísticas". Si bien se puede demostrar que tanto el AIC como el BIC convergen asintóticamente hacia los enfoques de validación cruzada (creo que el AIC va hacia el CV de omisión y el BIC hacia algún otro enfoque, pero no estoy seguro), son conocidos por infra penalizar y penalizar en exceso respectivamente. Es decir, al usar AIC, a menudo obtendrá un modelo, que es más complicado de lo que debería ser, mientras que con BIC a menudo obtiene un modelo que es demasiado simplista.

Como ambos están relacionados con el CV, el CV suele ser una mejor opción, que no sufre estos problemas.

Luego, finalmente está el problema del número de parámetros que se requieren para BIC y AIC. Con los aproximadores de funciones generales (p. Ej., KNN) en las entradas de valor real, es posible "ocultar" parámetros, es decir, construir un número real que contenga la misma información que dos números reales (piense, por ejemplo, en intersectar los dígitos). En ese caso, ¿cuál es el número real de parámetros? Por otro lado, con modelos más complicados, puede tener restricciones en sus parámetros, digamos que solo puede ajustar parámetros tales que θ1>θ2 (ver, por ejemplo, aquí ). O puede que no sea identificable, en cuyo caso los valores múltiples de los parámetros realmente dan el mismo modelo. En todos estos casos, el simple conteo de parámetros no proporciona una estimación adecuada.

Dado que muchos algoritmos contemporáneos de aprendizaje automático muestran estas propiedades (es decir, aproximación universal, número incierto de parámetros, no identificabilidad), AIC y BIC son menos útiles para este modelo, de lo que pueden parecer a primera vista.

EDITAR :

Algunos puntos más que podrían aclararse:

  1. Parece que me equivoqué al considerar el mapeo entrelazando dígitos como una biyección entre RRN (ver aquí ). Sin embargo, los detalles de por qué esto no es una biyección son un poco difíciles de entender. Sin embargo, en realidad no necesitamos una biyección para que esta idea funcione (una sobreposición es suficiente).
  2. Según la prueba de Cantor (1877) debe haber una biyección entre RRN . Aunque esta biyección no puede definirse explícitamente, su existencia puede demostrarse (pero esto requiere el axioma de elección no comprobado). Esta biyección todavía se puede usar en un modelo teórico (puede que no sea posible implementar este modelo en una computadora), para desempaquetar un solo parámetro en un número arbitrario de parámetros.
  3. En realidad, no necesitamos que el mapeo entre RRN sea ​​una biyección. Cualquier función surjective RRN es suficiente para desempaquetar múltiples parámetros de uno solo. Se puede demostrar que tales sobrejeturas existen como límites para una secuencia de otras funciones (llamadas curvas de relleno de espacio , por ejemplo, curva de Peano ).
  4. Debido a que ni la prueba de Cantor es constructiva (simplemente demuestra la existencia de la biyección sin dar un ejemplo), ni las curvas que llenan el espacio (porque solo existen como límites de objetos constructivos y, por lo tanto, no son constructivas), el argumento I hecho es solo una prueba teórica. En teoría, podríamos seguir agregando parámetros a un modelo para reducir el BIC por debajo de cualquier valor deseado (en el conjunto de entrenamiento). Sin embargo, en una implementación de modelo real, tenemos que aproximar la curva de relleno de espacio, por lo que el error de aproximación puede prohibirnos que lo hagamos (en realidad no lo he probado).
  5. Como todo esto requiere el axioma de elección, la prueba se vuelve inválida si no acepta este axioma (aunque la mayoría de los matemáticos lo hacen). Eso significa que, en matemáticas constructivas, esto puede no ser posible, pero no sé qué papel juegan las matemáticas constructivas para las estadísticas.
  6. NRN+1RNRNRN. Sin embargo, esto es solo un argumento informal, no conozco ningún tratamiento formal de esta noción de "complejidad".
LiKao
fuente
¿ Te importaría participar en esta publicación stats.stackexchange.com/questions/325129/… ? No he tenido suerte con eso por un tiempo.
Skander H. - Restablece a Mónica el
1
@LiKao ¿Puede citar referencias sobre las "técnicas" de ocultación de parámetros, como el caso de dígitos que se cruzan.
horaceT
@horaceT Desafortunadamente, no conozco ningún documento que dé este ejemplo. En los documentos sobre MDL existe la noción de "complejidad funcional" (por ejemplo, lpl.psy.ohio-state.edu/documents/MNP.pdf ver ec. 10). A menudo, el ejemplo se realiza con parámetros restringidos (por ejemplo, researchgate.net/publication/… ). Me gusta cambiar el ejemplo al discutir esto, y mostrar que un único parámetro complejo puede capturar múltiples parámetros simples porque lo encuentro más intuitivo.
LiKao
f1,2:RR2f1,N:RRNNf1,NNN1
@LiKao Esto es bastante fascinante. Los PLS hacen referencia a dicha prueba de "curvas de archivo". Pude ver que los parámetros restringidos tienen "menos" grado de libertad. Ingenuamente, si f (x, y) = 0, y es solo una función de x; simplemente pones g (x) donde y es. ¿No puedes hacer cosas similares con optimización restringida?
horaceT