Ciencia de los datos

13
¿Cómo se debe inicializar y regularizar el sesgo?

He leído un par de documentos sobre la inicialización del núcleo y muchos documentos mencionan que usan la regularización L2 del núcleo (a menudo con ).λ=0.0001λ=0.0001\lambda = 0.0001 ¿Alguien hace algo diferente a inicializar el sesgo con cero constante y no regularizarlo? Papeles de...

13
Olvídese de la capa en una red neuronal recurrente (RNN) -

Estoy tratando de averiguar las dimensiones de cada variable en un RNN en la capa de olvido, sin embargo, no estoy seguro de si estoy en el camino correcto. La siguiente imagen y ecuación es de la publicación del blog de Colah "Comprender las redes LSTM" : dónde: es entrada de tamaño m * 1...

13
¿Qué son las incrustaciones de gráficos?

Recientemente me encontré con la incrustación de gráficos como DeepWalk y LINE. Sin embargo, todavía no tengo una idea clara de lo que se entiende por incrustaciones de gráficos y cuándo usarlo (aplicaciones). Cualquier sugerencia es

13
¿Por qué agregar una capa de abandono mejora el rendimiento del aprendizaje profundo / automático, dado que el abandono suprime algunas neuronas del modelo?

Si eliminar algunas neuronas da como resultado un modelo de mejor rendimiento, ¿por qué no utilizar una red neuronal más simple con menos capas y menos neuronas en primer lugar? ¿Por qué construir un modelo más grande y complicado al principio y suprimir partes de él más