Hay una diferencia entre las ReLU muertas y las ReLU que son silenciosas en muchas, pero no en todas, las entradas. Las ReLU muertas deben evitarse, mientras que las ReLU en su mayor parte silenciosas pueden ser útiles debido a la escasez que inducen.
Las ReLU muertas han ingresado en un régimen de parámetros donde siempre están en el dominio negativo de la función de activación. Esto podría suceder, por ejemplo, si el sesgo se establece en un valor negativo grande. Debido a que la función de activación es cero para valores negativos, estas unidades son silenciosas para todas las entradas. Cuando un ReLU está en silencio, el gradiente de la función de pérdida con respecto a los parámetros es cero, por lo que no se producirán actualizaciones de parámetros con el aprendizaje basado en gradiente. Debido a que los ReLU muertos son silenciosos para todas las entradas, están atrapados en este régimen.
Contraste esto con un ReLU que es silencioso en muchas pero no en todas las entradas. En este caso, el gradiente sigue siendo cero cuando la unidad está en silencio. Si estamos utilizando un procedimiento de aprendizaje en línea como el descenso de gradiente minibatch / estocástico, no se realizarán actualizaciones de parámetros para las entradas que hacen que la unidad esté en silencio. Pero, las actualizaciones aún son posibles para otras entradas, donde la unidad está activa y el gradiente no es cero.
Debido a que las ReLU muertas son silenciosas para todas las entradas, no contribuyen en nada a la red y se desperdician. Desde una perspectiva teórica de la información, cualquier unidad que tenga el mismo valor de salida para todas las entradas (ya sea cero o no) no lleva información sobre la entrada. Las ReLU en su mayoría silenciosas se comportan de manera diferente para diferentes entradas y, por lo tanto, mantienen la capacidad de transportar información útil.