Preguntas etiquetadas con deep-learning

119

¿Cuál es el problema de "ReLU moribundo" en las redes neuronales?

En referencia a las notas del curso de Stanford sobre Redes neuronales convolucionales para el reconocimiento visual , un párrafo dice: "Desafortunadamente, las unidades ReLU pueden ser frágiles durante el entrenamiento y pueden" morir ". Por ejemplo, un gran gradiente que fluye a través de una...

machine-learning neural-network deep-learning

95

¿Cuándo usar GRU sobre LSTM?

La diferencia clave entre un GRU y un LSTM es que un GRU tiene dos compuertas ( restablecer y actualizar compuertas) mientras que un LSTM tiene tres compuertas (es decir , compuertas de entrada , salida y olvido ). ¿Por qué hacemos uso de GRU cuando claramente tenemos más control en la red a...

neural-network deep-learning

85

Elegir una tasa de aprendizaje

Actualmente estoy trabajando en implementar el Descenso de gradiente estocástico SGD, para redes neuronales que usan propagación hacia atrás, y aunque entiendo su propósito, tengo algunas preguntas sobre cómo elegir valores para la tasa de aprendizaje. ¿La tasa de aprendizaje está relacionada con...

machine-learning neural-network deep-learning optimization hyperparameter

80

¿Cómo visualizas las arquitecturas de redes neuronales?

Al escribir un artículo / hacer una presentación sobre un tema que trata sobre redes neuronales, generalmente se visualiza la arquitectura de redes. ¿Cuáles son las formas buenas / simples de visualizar arquitecturas comunes

machine-learning neural-network deep-learning visualization

78

¿Cómo dibujar diagramas de arquitectura de red de aprendizaje profundo?

He construido mi modelo. Ahora quiero dibujar el diagrama de arquitectura de red para mi trabajo de investigación. El ejemplo se muestra a

machine-learning neural-network deep-learning svm software-recommendation

64

Predicción de series de tiempo usando ARIMA vs LSTM

El problema con el que estoy lidiando es predecir valores de series de tiempo. Estoy viendo una serie de tiempo a la vez y, por ejemplo, en base al 15% de los datos de entrada, me gustaría predecir sus valores futuros. Hasta ahora me he encontrado con dos modelos: LSTM (memoria a corto plazo; una...

time-series deep-learning rnn prediction

51

¿Cuándo usar (Él o Glorot) la inicialización normal sobre init uniforme? ¿Y cuáles son sus efectos con Batch Normalization?

Sabía que Residual Network (ResNet) hizo popular la inicialización normal. En ResNet, se usa la inicialización normal de He , mientras que la primera capa usa la inicialización uniforme de He. He revisado el papel de ResNet y el documento "Profundizando en los rectificadores" (papel de...

neural-network deep-learning normalization

50

Cómo luchar contra la ropa interior en una red neuronal profunda

Cuando comencé con las redes neuronales artificiales (NN) pensé que tendría que luchar contra el sobreajuste como el principal problema. Pero en la práctica ni siquiera puedo lograr que mi NN pase la barrera de la tasa de error del 20%. ¡Ni siquiera puedo superar mi puntaje en un bosque...

neural-network deep-learning

43

Agregar características al modelo de serie temporal LSTM

He estado leyendo un poco sobre LSTM y su uso para series de tiempo y ha sido interesante pero difícil al mismo tiempo. Una cosa que he tenido dificultades para comprender es el enfoque para agregar características adicionales a lo que ya es una lista de características de series temporales....

machine-learning neural-network deep-learning time-series

43

Número de parámetros en un modelo LSTM

¿Cuántos parámetros tiene un único LSTM apilado? El número de parámetros impone un límite inferior en el número de ejemplos de entrenamiento requeridos y también influye en el tiempo de entrenamiento. Por lo tanto, conocer el número de parámetros es útil para entrenar modelos que usan...

deep-learning rnn

40

¿Por qué el tamaño del mini lote es mejor que un solo "lote" con todos los datos de entrenamiento?

A menudo leo que en el caso de los modelos de Deep Learning, la práctica habitual es aplicar mini lotes (generalmente uno pequeño, 32/64) durante varias épocas de entrenamiento. Realmente no puedo entender la razón detrás de esto. A menos que me equivoque, el tamaño del lote es el número de...

machine-learning deep-learning

38

¿El batch_size en Keras tiene algún efecto en la calidad de los resultados?

Estoy a punto de entrenar una gran red LSTM con 2-3 millones de artículos y estoy luchando con errores de memoria (uso AWS EC2 g2x2large). Descubrí que una solución es reducir el batch_size. Sin embargo, no estoy seguro de si este parámetro solo está relacionado con problemas de eficiencia de...

deep-learning keras

38

¿Cuál es la diferencia entre "equivalente a la traducción" e "invariante a la traducción"

Tengo problemas para entender la diferencia entre equivalente a traducción e invariante a traducción . En el libro Deep Learning . MIT Press, 2016 (I. Goodfellow, A. Courville e Y. Bengio), uno puede encontrar en las redes convolucionales: [...] la forma particular de compartir parámetros hace...

neural-network deep-learning convolution

35

Explicación de la pérdida de entropía cruzada

Supongamos que construyo un NN para la clasificación. La última capa es una capa densa con activación softmax. Tengo cinco clases diferentes para clasificar. Supongamos que para un solo ejemplo de entrenamiento, el true labeles [1 0 0 0 0]mientras las predicciones sean [0.1 0.5 0.1 0.1 0.2]. ¿Cómo...

machine-learning deep-learning

35

Citas divertidas relacionadas con la ciencia de datos

Se ha acostumbrado a los usuarios de diferentes comunidades a citar cosas divertidas sobre sus campos. ¡Puede ser divertido compartir sus cosas divertidas sobre Machine Learning, Deep Learning, Data Science y las cosas que enfrenta todos los

machine-learning neural-network deep-learning

33

Multi GPU en keras

¿Cómo puede programar en la biblioteca de keras (o flujo de tensor) para particionar el entrenamiento en múltiples GPU? Digamos que se encuentra en una instancia de Amazon ec2 que tiene 8 GPU y desea utilizarlas todas para entrenar más rápido, pero su código es solo para una sola CPU o...

python deep-learning tensorflow keras gpu

32

¿Explicación intuitiva de la pérdida de estimación de contraste de ruido (NCE)?

Leí sobre NCE (una forma de muestreo de candidatos) de estas dos fuentes: Escritura de Tensorflow Papel original Alguien me puede ayudar con lo siguiente: Una explicación simple de cómo funciona NCE (encontré lo anterior difícil de analizar y comprender, por lo que algo intuitivo que conduzca...

deep-learning tensorflow word-embeddings sampling loss-function

30

¿Qué es la verdad fundamental?

En el contexto de Machine Learning , he visto que el término Ground Truth se usaba mucho. He buscado mucho y encontré la siguiente definición en Wikipedia : En el aprendizaje automático, el término "verdad fundamental" se refiere a la precisión de la clasificación del conjunto de entrenamiento...

machine-learning neural-network deep-learning

30

Aprendizaje profundo vs aumento de gradiente: ¿cuándo usar qué?

Tengo un gran problema de datos con un gran conjunto de datos (por ejemplo, 50 millones de filas y 200 columnas). El conjunto de datos consta de aproximadamente 100 columnas numéricas y 100 columnas categóricas y una columna de respuesta que representa un problema de clase binaria. La cardinalidad...

machine-learning classification deep-learning

30

Documento: ¿Cuál es la diferencia entre Normalización de capa, Normalización de lote recurrente (2016) y RNN normalizado de lote (2015)?

Entonces, recientemente hay un documento de Normalización de capa . También hay una implementación en Keras. Pero recuerdo que hay documentos titulados Recurrent Batch Normalization (Cooijmans, 2016) y Batch Normalized Recurrent Neural Networks (Laurent, 2015). ¿Cuál es la diferencia entre esos...

deep-learning rnn normalization batch-normalization