Al entrenar redes neuronales, hay al menos 4 formas de regularizar la red:
Además, por supuesto, otras cosas como compartir el peso y reducir el número de conexiones, lo que podría no ser regularización en el sentido más estricto.
Pero, ¿cómo elegir uno de esos métodos de regularización para usar? ¿Existe una forma más basada en principios que "simplemente probar todo y ver qué funciona"?
neural-network
regularization
Thomas Johnson
fuente
fuente
Respuestas:
No existen principios sólidos y bien documentados que lo ayuden a decidir entre los tipos de regularización en las redes neuronales. Incluso puede combinar técnicas de regularización, no tiene que elegir solo una.
Un enfoque viable puede basarse en la experiencia y en seguir la literatura y los resultados de otras personas para ver qué dio buenos resultados en diferentes dominios problemáticos. Teniendo esto en cuenta, la deserción ha demostrado ser muy exitosa para una amplia gama de problemas, y probablemente pueda considerarla una buena primera opción, casi independientemente de lo que esté intentando.
También, a veces, simplemente elegir una opción con la que esté familiarizado puede ayudar: trabajar con técnicas que entienda y con las que tenga experiencia puede obtener mejores resultados que probar una gran bolsa de opciones diferentes donde no está seguro de qué orden de magnitud probar para un parámetro . Una cuestión clave es que las técnicas pueden interactuar con otros parámetros de la red; por ejemplo, es posible que desee aumentar el tamaño de las capas con deserción dependiendo del porcentaje de deserción.
Finalmente, puede que no importe mucho qué técnicas de regularización esté utilizando, solo que comprenda su problema y modele lo suficientemente bien como para detectar cuándo está sobreajustado y podría funcionar con una mayor regularización. O viceversa, identifique cuándo está subadaptando y que debe reducir la regularización.
fuente
Método de regularización.
Para las siguientes 4 técnicas, la regularización L1 y la regularización L2 son innecesarias para decir que deben ser un método de regularización. Reducen el peso. L1 se concentraría en reducir una menor cantidad de peso si los pesos tienen mayor importancia.
El abandono evita el sobreajuste al abandonar temporalmente las neuronas. Eventualmente, calcula todos los pesos como un promedio para que el peso no sea demasiado grande para una neurona en particular y, por lo tanto, es un método de regularización.
La normalización de lotes no debe ser un método de regularización porque su objetivo principal es acelerar el entrenamiento seleccionando un lote y obligando a que el peso se distribuya cerca de 0, ni demasiado grande ni demasiado pequeño.
Eligiéndolo
Para mí, el mini lote es imprescindible porque puede acelerar el proceso y mejorar el rendimiento de la red en todo momento.
L1 y L2 son similares y preferiría L1 en una red pequeña.
Idealmente, la deserción debería aplicarse si hay un problema de gran variación o sobreajuste.
Por último, pero no menos importante, estoy de acuerdo con Neil Slater en que depende de la situación y que nunca habrá una solución óptima.
Le recomiendo que lea esto para obtener más información. Este es un muy buen material. http://neuralnetworksanddeeplearning.com/chap3.html
fuente
Mire esas opciones algorítmicas como hiperparámetros adicionales y optimícelos de la misma manera que lo hace con sus otros hiperparámetros. Sin embargo, esto normalmente requerirá más datos.
fuente