¿Son suficientes la detención temprana y el abandono escolar para regularizar la gran mayoría de las redes neuronales profundas en la práctica?

Hay tantas técnicas de regularización que no es práctico probar todas las combinaciones:

l1 / l2
norma máxima
abandonar
parada temprana
...

Parece que la mayoría de las personas están contentas con una combinación de abandono escolar y parada temprana: ¿hay casos en los que tenga sentido usar otras técnicas?

Por ejemplo, si desea un modelo disperso, puede agregar un poco de regularización l1. Aparte de eso, ¿hay argumentos sólidos a favor de rociar en otras técnicas de regularización?

Sé sobre el teorema de no almuerzo gratis, en teoría tendría que probar todas las combinaciones de técnicas de regularización, pero no vale la pena intentarlo si casi nunca produce un aumento significativo en el rendimiento.

neural-networks regularization dropout MiniQuark
fuente

Respuestas:

Recordemos que el objetivo principal de la regularización es reducir el sobre ajuste.

¿Qué otras técnicas se están utilizando actualmente para reducir el sobre ajuste?

1) Peso compartido: como se hace en CNN, aplicando los mismos filtros en la imagen.

2) Aumento de datos: aumentar los datos existentes y generar datos sintéticos con modelos generativos

3) Gran cantidad de datos de entrenamiento, gracias a ImageNet, etc.

4) Pre-entrenamiento: por ejemplo, diga Usar pesos aprendidos de ImageNet antes de entrenar clasificador en el conjunto de datos de Caltech.

5) El uso de RelU en redes neuronales por sí solo fomenta la escasez ya que permiten cero activaciones. De hecho, para regiones más complejas en el espacio de características, use más RelU, desactívelas para regiones simples. Básicamente, la complejidad del modelo varía según la complejidad del problema.

El uso de un montón de tales técnicas además del abandono y la detención temprana parece suficiente para los problemas que se resuelven hoy. Sin embargo, para problemas nuevos con datos menores, puede encontrar otras técnicas de regularización útiles.

Amitoz Dandiana
fuente

+1 Gran respuesta, gracias. Parece que hay una línea borrosa que separa las técnicas de inicialización del peso (por ejemplo, pre-entrenamiento) y la regularización. Además, algunas técnicas pueden ser útiles para varias cosas, incluida la regularización: por ejemplo, la norma de lotes está destinada a solucionar el problema de gradientes que desaparecen, pero también tiene algunas capacidades de regularización. Esperaré algunas otras respuestas antes de aceptar una.

MiniQuark