He estado tratando de averiguar qué significa exactamente la función de activación "Maxout" en las redes neuronales. Existe esta pregunta, este documento e incluso en el libro Deep Learning de Bengio et al. , excepto con solo un poco de información y un gran TODO al lado.
Usaré la notación descrita aquí para mayor claridad. Simplemente no quiero volver a escribirlo y causar una gran cantidad de preguntas. Brevemente, , en otras palabras, una neurona tiene un solo sesgo , un solo peso para cada entrada, y luego suma las entradas por los pesos, luego agrega el sesgo y aplica la función de activación para obtener el valor de salida (también conocido como activación).
Hasta ahora sé que Maxout es una función de activación que "genera el máximo de sus entradas". Qué significa eso? Aquí hay algunas ideas que podría interpretar a partir de eso:
- , también conocido como max-pooling.
- , simplemente reemplazando la suma que normalmente se hace con un máximo.
- , donde cada neurona ahora tiene un valor de sesgo para cada entrada, en lugar de un único valor de sesgo aplicado después de sumar todas las entradas. Esto haría que la propagación hacia atrás sea diferente, pero aún posible.
- Cada se calcula como normal, y cada neurona tiene un solo sesgo y un peso para cada entrada. Sin embargo, similar a Softmax ( ), esto se lleva el máximo de todos los 'es en su capa actual . Formalmente, .
¿Alguno de estos es correcto? o es algo diferente?
fuente