Diferencia de funciones de activación en redes neuronales en general

15

He estudiado los tipos de funciones de activación para redes neuronales. Las funciones en sí son bastante sencillas, pero la diferencia de la aplicación no está del todo clara.

Es razonable que se diferencie entre las funciones de tipo lógico y lineal, dependiendo de la salida binaria / continua deseada, pero ¿cuál es la ventaja de la función sigmoide sobre la lineal simple?

ReLU es especialmente difícil de entender para mí, por ejemplo: ¿cuál es el punto de usar una función que se comporta como lineal en caso de entradas positivas pero es "plana" en caso de negativas? ¿Cuál es la intuición detrás de esto? ¿O es solo una simple cuestión de prueba-error, nada más?

Hendrik
fuente

Respuestas:

15

Se hizo una pregunta similar en CV: Lista completa de funciones de activación en redes neuronales con pros / contras .

Copio a continuación una de las respuestas:

Una de esas listas, aunque no muy exhaustiva: http://cs231n.github.io/neural-networks-1/

Funciones de activación comúnmente utilizadas

Cada función de activación (o no linealidad ) toma un solo número y realiza una determinada operación matemática fija en él. Hay varias funciones de activación que puede encontrar en la práctica:

ingrese la descripción de la imagen aquíingrese la descripción de la imagen aquí

Izquierda: la no linealidad sigmoidea aplasta los números reales para que oscilen entre [0,1]. Derecha: la no linealidad tanh aplasta los números reales para que oscilen entre [-1,1].

Sigmoideo. La no linealidad sigmoidea tiene la forma matemática σ(X)=1/ /(1+mi-X)y se muestra en la imagen de arriba a la izquierda. Como se aludió en la sección anterior, toma un número de valor real y lo "aplasta" en un rango entre 0 y 1. En particular, los números negativos grandes se convierten en 0 y los números positivos grandes se convierten en 1. La función sigmoide ha sido utilizada históricamente dado que tiene una buena interpretación como la velocidad de disparo de una neurona: desde no disparar en absoluto (0) hasta disparar completamente saturado a una frecuencia máxima supuesta (1). En la práctica, la no linealidad sigmoidea ha caído recientemente en desgracia y rara vez se usa. Tiene dos inconvenientes principales:

  • Los sigmoides saturan y matan los gradientes . Una propiedad muy indeseable de la neurona sigmoidea es que cuando la activación de la neurona se satura en la cola de 0 o 1, el gradiente en estas regiones es casi cero. Recuerde que durante la propagación hacia atrás, este gradiente (local) se multiplicará por el gradiente de la salida de esta puerta para todo el objetivo. Por lo tanto, si el gradiente local es muy pequeño, efectivamente "matará" el gradiente y casi ninguna señal fluirá a través de la neurona a sus pesos y recursivamente a sus datos. Además, se debe tener especial cuidado al inicializar los pesos de las neuronas sigmoides para evitar la saturación. Por ejemplo, si los pesos iniciales son demasiado grandes, la mayoría de las neuronas se saturarán y la red apenas aprenderá.
  • X>0 0F=wTX+siwF) Esto podría introducir dinámicas de zigzag no deseadas en las actualizaciones de gradiente para los pesos. Sin embargo, tenga en cuenta que una vez que estos gradientes se suman en un lote de datos, la actualización final de los pesos puede tener signos variables, lo que mitiga este problema. Por lo tanto, esto es un inconveniente, pero tiene consecuencias menos graves en comparación con el problema de activación saturado anterior.

Tanh La no linealidad de tanh se muestra en la imagen de arriba a la derecha. Aplasta un número de valor real al rango [-1, 1]. Al igual que la neurona sigmoidea, sus activaciones se saturan, pero a diferencia de la neurona sigmoidea, su salida está centrada en cero. Por lo tanto, en la práctica, la no linealidad de tanh siempre se prefiere a la no linealidad sigmoidea. También tenga en cuenta que la neurona tanh es simplemente una neurona sigmoidea escalada, en particular lo siguiente:tanh(X)=2σ(2X)-1

ingrese la descripción de la imagen aquíingrese la descripción de la imagen aquí

Izquierda: función de activación de la Unidad lineal rectificada (ReLU), que es cero cuando x <0 y luego lineal con pendiente 1 cuando x> 0. Derecha: Un gráfico de Krizhevsky et al. (pdf) documento que indica la mejora 6x en la convergencia con la unidad ReLU en comparación con la unidad tanh.

ReLU. La unidad lineal rectificada se ha vuelto muy popular en los últimos años. Calcula la función . En otras palabras, la activación se limita simplemente a cero (ver imagen de arriba a la izquierda). Existen varios pros y contras para usar las ReLU:F(X)=max(0 0,X)

  • (+) Se descubrió que acelera en gran medida (por ejemplo, un factor de 6 en Krizhevsky et al. ) La convergencia del descenso del gradiente estocástico en comparación con las funciones sigmoideas / tanh. Se argumenta que esto se debe a su forma lineal, no saturante.
  • (+) En comparación con las neuronas tanh / sigmoideas que implican operaciones costosas (exponenciales, etc.), la ReLU se puede implementar simplemente con un umbral de una matriz de activaciones en cero.
  • (-) Desafortunadamente, las unidades ReLU pueden ser frágiles durante el entrenamiento y pueden "morir". Por ejemplo, un gran gradiente que fluye a través de una neurona ReLU podría hacer que los pesos se actualicen de tal manera que la neurona nunca se active en ningún punto de datos nuevamente. Si esto sucede, entonces el gradiente que fluye a través de la unidad será siempre cero desde ese punto en adelante. Es decir, las unidades ReLU pueden morir irreversiblemente durante el entrenamiento, ya que pueden ser eliminadas del múltiple de datos. Por ejemplo, puede encontrar que hasta el 40% de su red puede estar "muerta" (es decir, neuronas que nunca se activan en todo el conjunto de datos de entrenamiento) si la tasa de aprendizaje se establece demasiado alta. Con un ajuste adecuado de la tasa de aprendizaje, este problema es menos frecuente.

F(X)=1(X<0 0)(αX)+1(X> =0 0)(X)αEs una pequeña constante. Algunas personas informan éxito con esta forma de función de activación, pero los resultados no siempre son consistentes. La pendiente en la región negativa también se puede convertir en un parámetro de cada neurona, como se ve en las neuronas PReLU, introducidas en Delving Deep into Rectifiers , por Kaiming He et al., 2015. Sin embargo, la consistencia del beneficio entre las tareas es actualmente poco claro.

ingrese la descripción de la imagen aquí

F(wTX+si)max(w1TX+si1,w2TX+si2)w1,si1=0 0

Esto concluye nuestra discusión sobre los tipos más comunes de neuronas y sus funciones de activación. Como último comentario, es muy raro mezclar y combinar diferentes tipos de neuronas en la misma red, a pesar de que no hay un problema fundamental al hacerlo.

TLDR : " ¿Qué tipo de neurona debo usar? " Utilice la no linealidad ReLU, tenga cuidado con sus tasas de aprendizaje y posiblemente controle la fracción de unidades "muertas" en una red. Si esto le preocupa, pruebe Leaky ReLU o Maxout. Nunca use sigmoide. Intente tanh, pero espere que funcione peor que ReLU / Maxout.


Licencia:


la licencia MIT (MIT)

Copyright (c) 2015 Andrej Karpathy

Por la presente, se otorga permiso, de forma gratuita, a cualquier persona que obtenga una copia de este software y los archivos de documentación asociados (el "Software"), para operar en el Software sin restricciones, incluidos, entre otros, los derechos de uso, copia, modificación, fusión , publicar, distribuir, sublicenciar y / o vender copias del Software, y permitir que las personas a quienes se les proporcione el Software lo hagan, sujeto a las siguientes condiciones:

El aviso de copyright anterior y este aviso de permiso se incluirán en todas las copias o partes sustanciales del Software.

EL SOFTWARE SE PROPORCIONA "TAL CUAL", SIN GARANTÍA DE NINGÚN TIPO, EXPRESA O IMPLÍCITA, INCLUYENDO PERO SIN LIMITARSE A LAS GARANTÍAS DE COMERCIABILIDAD, APTITUD PARA UN PROPÓSITO Y NO INFRACCIÓN PARTICULARES. EN NINGÚN CASO, LOS AUTORES O LOS TITULARES DE LOS DERECHOS DE AUTOR SERÁN RESPONSABLES DE NINGÚN RECLAMO, DAÑOS U OTRA RESPONSABILIDAD, YA SEA EN ACCIÓN DE CONTRATO, TORT O DE OTRA MANERA, DERIVADA DE, FUERA DE, O EN RELACIÓN CON EL SOFTWARE O EL USO O OTRO TRATO EN EL SOFTWARE.*

Franck Dernoncourt
fuente
Gracias, este resumen da una idea, pero, francamente, todavía no puedo entender algunos detalles intuitivamente (por ejemplo, ¿por qué ReLU "acelera en gran medida la convergencia de SGD"), y sobre todo: ¿cuál seleccionar? Según la conclusión, Maxout es el mejor y ese es el final. Pero aparte del hecho de que Maxout no está implementado en los paquetes más populares (en Keras, por ejemplo), me parece razonable que al menos en la última capa se coloquen otros tipos (sigmoide para biclasificación, por ejemplo).
Hendrik