¿Qué nos dice la dimensión VC sobre el aprendizaje profundo?

15

En el aprendizaje automático básico, se nos enseñan las siguientes "reglas generales":

a) el tamaño de sus datos debe ser al menos 10 veces el tamaño de la dimensión VC de su conjunto de hipótesis.

b) una red neuronal con N conexiones tiene una dimensión VC de aproximadamente N.

Entonces, cuando una red neuronal de aprendizaje profundo dice, millones de unidades, ¿significa esto que deberíamos tener, digamos, miles de millones de puntos de datos? ¿Puedes arrojar algo de luz sobre esto?

Fequish
fuente
Una red neuronal profunda no tendrá millones de unidades como usted dice. Sin embargo, tendrá millones de conexiones. Supongo que su segunda regla general no se cumple para estas redes, principalmente debido a su naturaleza regularizada (por ejemplo, CNN con abandono).
pir
Creo que la clave es que VC enlazado no es infinito. Si es finito, entonces la teoría PAC nos dice que el aprendizaje es factible. Cuántos datos, esa es otra pregunta.
Vladislavs Dovgalecs

Respuestas:

4

La regla general de la que habla no se puede aplicar a una red neuronal.

Una red neuronal tiene algunos parámetros básicos, es decir, sus pesos y sesgos. El número de pesos depende del número de conexiones entre las capas de red y el número de sesgos depende del número de neuronas.

El tamaño de los datos requeridos depende en gran medida de:

  1. El tipo de red neuronal utilizada .
  2. Las técnicas de regularización utilizadas en la red .
  3. La tasa de aprendizaje utilizada en el entrenamiento de la red.

Dicho esto, la forma más adecuada y segura de saber si el modelo está sobreajustado es verificar si el error de validación está cerca del error de entrenamiento. Si es así, entonces el modelo funciona bien. Si no, entonces el modelo probablemente esté sobreajustado y eso significa que necesita reducir el tamaño de su modelo o introducir técnicas de regularización.

Azrael
fuente
Debes estar bromeando cuando dices que la mejor manera de entender si el modelo está sobreajustado es verificar si el error de validación está cerca del error de entrenamiento.
nbro
66
@nbro, si tiene un conjunto de retención adecuado para verificar el error de validación, es una medida mucho más confiable de sobreajuste para su red capacitada particular que pasar por límites de VC generalmente muy sueltos.
Dougal
@Dougal Simplemente estás repitiendo lo que dijiste en tu respuesta.
nbro
3
No es mi respuesta @nbro. Pero dado un conjunto de validación, puede obtener un límite trivial de alta probabilidad en el verdadero error de generalización con Hoeffding o similar, mientras que atravesar los límites de VC implica una gran cantidad de límites superiores sueltos que no son específicos del conjunto de datos y la red en particular que tiene en mano.
Dougal