Preguntas etiquetadas con neural-networks

44
¿Qué función de activación para la capa de salida?

Si bien la elección de las funciones de activación para la capa oculta es bastante clara (principalmente sigmoide o tanh), me pregunto cómo decidir la función de activación para la capa de salida. Las opciones comunes son funciones lineales, funciones sigmoideas y funciones softmax. Sin embargo,...

43
Capa Softmax en una red neuronal

Estoy tratando de agregar una capa softmax a una red neuronal entrenada con retropropagación, así que estoy tratando de calcular su gradiente. La salida de softmax es hj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}} dondejjjes el número de neurona de salida. Si lo obtengo, me...

42
¿Qué es maxout en la red neuronal?

¿Alguien puede explicar qué hacen las unidades maxout en una red neuronal? ¿Cómo funcionan y en qué se diferencian de las unidades convencionales? Traté de leer el artículo de 2013 "Maxout Network" de Goodfellow et al. (del grupo del profesor Yoshua Bengio), pero no lo entiendo del...

36
Aprendizaje automático: ¿Debo usar una entropía cruzada categórica o una pérdida de entropía cruzada binaria para las predicciones binarias?

En primer lugar, me di cuenta de que si necesito realizar predicciones binarias, tengo que crear al menos dos clases a través de una codificación en caliente. ¿Es esto correcto? Sin embargo, ¿es la entropía cruzada binaria solo para predicciones con una sola clase? Si tuviera que usar una pérdida...

35
¿Cómo evita LSTM el problema del gradiente de fuga?

El LSTM se inventó específicamente para evitar el problema del gradiente de fuga. Se supone que debe hacer eso con el carrusel de error constante (CEC), que en el diagrama a continuación (de Greff et al. ) Corresponde al bucle alrededor de la celda . (fuente: deeplearning4j.org ) Y entiendo que...