Suponga que tiene una capa de entrada con n neuronas y la primera capa oculta tiene neuronas, con típicamente . Luego calcula la activación de la -ésima neurona en la capa oculta por
, donde es una función de activación como o .
Para entrenar la red, calcula la reconstrucción de la entrada, denotada , y minimiza el error entre y . Ahora, el elemento -ésimo en se calcula típicamente como:
Me pregunto por qué las reconstruidas generalmente se calculan con la misma función de activación en lugar de usar la función inversa, y ¿por qué son útiles y separadas en lugar de usar pesos y sesgos atados? Me parece mucho más intuitivo calcular el reconstruido con la función de activación inversa , por ejemplo, , de la siguiente manera:
Tenga en cuenta que aquí se usan pesos atados, es decir, , y se los sesgos de la capa oculta, en lugar de introducir un conjunto adicional de sesgos para la capa de entrada.
Y una pregunta muy relacionada: para visualizar características, en lugar de calcular la reconstrucción, generalmente se crearía una matriz de identidad con la dimensión de la capa oculta. Entonces, uno usaría cada columna de la matriz como entrada para una función de reactivación, que induce una salida en las neuronas de entrada. Para la función de reactivación, ¿sería mejor usar la misma función de activación (resp. La ) o la función inversa (resp. La )?
fuente