¿Cuáles son las alternativas a la dimensión VC para medir la complejidad de las redes neuronales?

16

He encontrado algunas formas básicas para medir la complejidad de las redes neuronales:

¿Hay otras alternativas?

Se prefiere

  • Si la métrica de complejidad pudiera usarse para medir redes neuronales de diferentes paradigmas (para medir backprop, redes neuronales dinámicas, correlación en cascada, etc.) en la misma escala. Por ejemplo, la dimensión VC se puede usar para diferentes tipos en redes (o incluso otras cosas que no sean redes neuronales), mientras que la cantidad de neuronas solo es útil entre modelos muy específicos donde la función de activación, señales (sumas básicas frente a picos) y otras Las propiedades de la red son las mismas.
  • Si tiene buenas correspondencias con medidas estándar de complejidad de funciones que la red puede aprender
  • Si es fácil calcular la métrica en redes específicas (sin embargo, esta última no es una obligación).

Notas

Esta pregunta se basa en una pregunta más general sobre CogSci.SE.

Artem Kaznatcheev
fuente
3
¿No debería la complejidad depender también del algoritmo de aprendizaje? La dimensión VC generalmente se aplica a métodos con funciones de pérdida convexa. Si tiene una pérdida no convexa, podría encontrarse en la situación en la que su modelo podría separar algunos puntos, pero su algoritmo de aprendizaje nunca encontrará esta solución. Por lo tanto, creo que debería ser bastante difícil tener límites usando la estructura de la red. Estoy de acuerdo con @tdc en que el error de generalización es el camino a seguir. El artículo de Vapnik sobre la teoría del aprendizaje estadístico podría ser un buen lugar para comenzar a aprender sobre eso.
Andreas Mueller

Respuestas:

8

Es posible que desee echar un vistazo al documento "(No) Limitando el verdadero error por John Langford y Rich Caruana (NIPS, 2001)

El resumen dice:

Presentamos un nuevo enfoque para delimitar la tasa de error real de un clasificador de valor continuo basado en los límites de PAC-Bayes. El método primero construye una distribución sobre clasificadores determinando qué tan sensible es cada parámetro en el modelo al ruido. La verdadera tasa de error del clasificador estocástico que se encuentra con el análisis de sensibilidad se puede limitar estrictamente utilizando un límite de PAC-Bayes. En este artículo demostramos el método en redes neuronales artificiales con resultados de una mejora de 2 3 orden de magnitud frente a los mejores límites netos deterministas de la red.

Muestran que puede aplicar límites de estilo PAC-Bayes a redes neuronales estocásticas. Sin embargo, el análisis solo se aplica a las redes neuronales de alimentación de 2 capas con una función de transferencia sigmoidal. En este caso, el término de complejidad solo depende del número de nodos y la varianza de los pesos. Muestran que para esta configuración, el límite predice efectivamente cuándo se producirá un sobreentrenamiento. ¡Desafortunadamente, realmente no afecta a ninguna de sus propiedades "preferidas"!

tdc
fuente
+1 que se ve genial - gracias, lo echaré un vistazo. Pero estoy de acuerdo en que no se ajusta a ninguna de las propiedades preferidas y, de primera mano, no parece medir realmente la complejidad de la red sino su rendimiento ... pero supongo que son inseparables.
Artem Kaznatcheev
Lo que está viendo es un error de generalización . Los límites que se crean generalmente tienen un término que se basa en el error de entrenamiento y un término de penalización basado en la complejidad del modelo. Todo lo que le interesa es el término de complejidad, pero será un ingrediente en casi todos los límites. ¡Este video lo explica mejor que yo!
tdc
Creo que esta dirección no es correcta. El error es muy diferente a la complejidad de la red. aunque la teoría existente puede difuminar los dos. Un ejemplo simple es el sobreajuste donde el error es bajo pero la complejidad es alta. Además, el error puede comportarse de manera contraintuitiva con la complejidad de wrt. como el sesgo parece que una red pequeña podría subestimar el error. etcétera
@vzn, pero el error de generalización es el error en los datos futuros, es decir, si tiene un error de entrenamiento bajo y una alta complejidad, su error se perderá.
tdc
3

Además, es posible que también le interese el trabajo de la dimensión desgarradora realizado por el profesor Peter Bartlett. Aquí hay una introducción al análisis de la complejidad de la red neuronal, en un artículo de IEEE de 1998: La complejidad de la muestra de clasificación de patrones con redes neuronales: el tamaño de los pesos es más importante que el tamaño de la red (Bartlett 1998) [ http: //ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=661502]

Shaun Singh
fuente