¿Cuáles son las ventajas de ReLU frente a Leaky ReLU y Parametric ReLU (si corresponde)?

10

Creo que la ventaja de usar Leaky ReLU en lugar de ReLU es que de esta manera no podemos tener un gradiente de fuga. La ReLU paramétrica tiene la misma ventaja con la única diferencia de que la pendiente de la salida para las entradas negativas es un parámetro que se puede aprender, mientras que en la ReLU con fugas es un hiperparámetro.

Sin embargo, no puedo decir si hay casos en los que es más conveniente usar ReLU en lugar de Leaky ReLU o Parametric ReLU.

gvgramazio
fuente

Respuestas:

7

La combinación de ReLU, la variante con fugas hiperparamétrica 1 y la variante con parametrización dinámica durante el aprendizaje confunde dos cosas distintas:

  • La comparación entre ReLU con la variante con fugas está estrechamente relacionada con la necesidad, en el caso particular de ML en cuestión, de evitar la saturación: la saturación es la pérdida de señal para el gradiente cero 2 o el predominio del ruido caótico que surge de lo digital redondeo 3 .
  • La comparación entre la activación dinámica de entrenamiento (llamada paramétrica en la literatura) y la activación estática de entrenamiento debe basarse en si las características de activación no lineales o no uniformes tienen algún valor relacionado con la tasa de convergencia 4 .

La razón por la cual ReLU nunca es paramétrica es porque hacerlo sería redundante. En el dominio negativo, es el cero constante. En el dominio no negativo, su derivada es constante. Dado que el vector de entrada de activación ya está atenuado con un producto de matriz de vectores (donde la matriz, el cubo o el hipercubo contiene los parámetros de atenuación) no hay un propósito útil al agregar un parámetro para variar la derivada constante para el dominio no negativo .

Cuando hay una curvatura en la activación, ya no es cierto que todos los coeficientes de activación son redundantes como parámetros. Sus valores pueden alterar considerablemente el proceso de entrenamiento y, por lo tanto, la velocidad y confiabilidad de la convergencia.

Para redes sustancialmente profundas, la redundancia reaparece, y hay evidencia de esto, tanto en teoría como en práctica en la literatura.

  • En términos algebraicos, la disparidad entre ReLU y las activaciones paramétricamente dinámicas derivadas de ella se aproxima a cero a medida que la profundidad (en número de capas) se acerca al infinito.
  • En términos descriptivos, ReLU puede aproximar con precisión las funciones con curvatura 5 si se le da un número suficiente de capas para hacerlo.

Es por eso que la variedad ELU, que es ventajosa para evitar los problemas de saturación mencionados anteriormente para redes menos profundas, no se usa para las más profundas.

Entonces uno debe decidir dos cosas.

  • Si la activación paramétrica es útil a menudo se basa en la experimentación con varias muestras de una población estadística. Pero no hay necesidad de experimentar en absoluto si la profundidad de la capa es alta.
  • Si la variante con fugas tiene valor tiene mucho que ver con los rangos numéricos encontrados durante la propagación inversa. Si el gradiente se vuelve muy pequeño durante la propagación de la espalda en cualquier punto durante el entrenamiento, una porción constante de la curva de activación puede ser problemática. En tal caso, una de las funciones suaves o RelU con fugas con sus dos pendientes distintas de cero puede proporcionar una solución adecuada.

En resumen, la elección nunca es una elección de conveniencia.


Notas al pie

[1] Los hiperparámetros son parámetros que afectan la señalización a través de la capa que no forman parte de la atenuación de las entradas para esa capa. Los pesos de atenuación son parámetros. Cualquier otra parametrización está en el conjunto de hiperparámetros. Esto puede incluir la velocidad de aprendizaje, la amortiguación de altas frecuencias en la propagación hacia atrás y una amplia variedad de otros controles de aprendizaje que se configuran para toda la capa, si no para toda la red.

[2] Si el gradiente es cero, entonces no puede haber ningún ajuste inteligente de los parámetros porque la dirección del ajuste es desconocida y su magnitud debe ser cero. El aprendizaje se detiene.

[3] Si el ruido caótico, que puede surgir a medida que la CPU redondea valores extremadamente pequeños a su representación digital más cercana, domina la señal de corrección que está destinada a propagarse de nuevo a las capas, entonces la corrección se vuelve absurda y el aprendizaje se detiene.

[4] La tasa de convergencia es una medida de la velocidad (ya sea en relación con microsegundos o con relación al índice de iteración del algoritmo) en la que el resultado del aprendizaje (comportamiento del sistema) se acerca a lo que se considera suficientemente bueno. Eso suele ser una proximidad específica a algunos criterios formales de aceptación para la convergencia (aprendizaje).

[5] Las funciones con curvatura son aquellas que no se visualizan como rectas o planas. Una parábola tiene curvatura. Una línea recta no. La superficie de un huevo tiene curvatura. Un plano perfecto no lo hace. Matemáticamente, si alguno de los elementos del hessiano de la función no es cero, la función tiene curvatura.

FauChristian
fuente
¿Qué quiere decir con La elección nunca es una elección de conveniencia ?
gvgramazio
@gvgramazio, había escrito "más conveniente usar ReLU" en su pregunta. Estaba indicando que la conveniencia no es la base sobre la cual se hace la elección. ¿Quizás parece demasiado duro? No tenía la intención de serlo. Las oraciones sobre esa oración en mi respuesta tenían la intención de proporcionar los criterios más útiles sobre los cuales podría basar su decisión al elegir las funciones de activación.
FauChristian
No te preocupes por ser demasiado duro, no es un problema para mí. Creo que es más un problema de idioma (no soy un hablante nativo de inglés).
gvgramazio
El hecho es que, por lo que he entendido, usted explica bien, en cuyo caso preferiría una variante con respecto a las otras. Lo que aún no entiendo es cuándo debería preferir el clásico. por ejemplo, la variante con fugas puede proporcionar una solución adecuada para el gradiente de fuga, pero si no tiene ningún inconveniente, siempre podría elegir la variante con fugas con respecto a la ReLU.
gvgramazio
@FauChristian, ¿podría agregar algunos términos e intuiciones coloquiales más? No estoy tan familiarizado con el lenguaje matemático :)
DuttaA