En la mayoría de los códigos de Tensorflow, he visto que Adam Optimizer se usa con una tasa de aprendizaje constante de 1e-4(es decir, 0,0001). El código generalmente tiene el siguiente aspecto: ...build the model... # Add the optimizer train_op =
Una biblioteca de Python para aprendizaje profundo desarrollada por Google. Use esta etiqueta para cualquier pregunta sobre el tema que (a) implique flujo de tensor ya sea como una parte crítica de la pregunta o respuesta esperada, y (b) no se trata solo de cómo usar el flujo de tensor.
En la mayoría de los códigos de Tensorflow, he visto que Adam Optimizer se usa con una tasa de aprendizaje constante de 1e-4(es decir, 0,0001). El código generalmente tiene el siguiente aspecto: ...build the model... # Add the optimizer train_op =
Específicamente, supongo que me pregunto acerca de esta declaración: Las futuras versiones principales de TensorFlow permitirán que los gradientes fluyan a la entrada de etiquetas en backprop de forma predeterminada. Que se muestra cuando lo uso tf.nn.softmax_cross_entropy_with_logits. En el...
En primer lugar, me di cuenta de que si necesito realizar predicciones binarias, tengo que crear al menos dos clases a través de una codificación en caliente. ¿Es esto correcto? Sin embargo, ¿es la entropía cruzada binaria solo para predicciones con una sola clase? Si tuviera que usar una pérdida...
He estado trabajando en un problema de regresión donde la entrada es una imagen, y la etiqueta es un valor continuo entre 80 y 350. Las imágenes son de algunos químicos después de que ocurre una reacción. El color que resulta indica la concentración de otro químico que queda, y eso es lo que el...
He estado estudiando LSTM por un tiempo. Entiendo a alto nivel cómo funciona todo. Sin embargo, al implementarlos usando Tensorflow, he notado que BasicLSTMCell requiere un número de unidades (es decir num_units) parámetro. A partir de esta explicación muy detallada de los LSTM, he deducido que...
Hinton y Salakhutdinov en la reducción de la dimensionalidad de los datos con redes neuronales, Science 2006 propusieron un PCA no lineal mediante el uso de un autoencoder profundo. He intentado construir y entrenar un codificador automático de PCA con Tensorflow varias veces, pero nunca he podido...
No estoy seguro si esta pregunta pertenece aquí, pero está estrechamente relacionada con los métodos de gradiente en la optimización, que parece estar en el tema aquí. De todos modos, siéntase libre de migrar si cree que alguna otra comunidad tiene una mejor experiencia en el tema. En resumen,...
En casi todos los ejemplos de código que he visto de un VAE, las funciones de pérdida se definen de la siguiente manera (este es el código de tensorflow, pero he visto algo similar para theano, torch, etc.) También es para un convnet, pero eso tampoco es demasiado relevante , solo afecta a los ejes...
Recientemente estaba corriendo y aprendiendo el flujo del tensor y obtuve algunos histogramas que no sabía cómo interpretar. Por lo general, pienso en la altura de las barras como la frecuencia (o frecuencia / recuento relativo). Sin embargo, el hecho de que no haya barras como en un histograma...
Estaba jugando con una red neuronal simple con una sola capa oculta, por Tensorflow, y luego probé diferentes activaciones para la capa oculta: Relu Sigmoideo Softmax (bueno, generalmente softmax se usa en la última capa ..) Relu ofrece la mejor precisión de tren y precisión de validación. No...
Estoy experimentando un poco de autoencoders, y con tensorflow creé un modelo que intenta reconstruir el conjunto de datos MNIST. Mi red es muy simple: X, e1, e2, d1, Y, donde e1 y e2 son capas de codificación, d2 e Y son capas de decodificación (e Y es la salida reconstruida). X tiene 784...
En aplicación de la Tensorflow ResNet , encuentro que utilizan la variación de escala inicializador, también encuentro Xavier inicializador es popular. No tengo mucha experiencia en esto, ¿qué es mejor en la
En términos de jerga de redes neuronales (y = Peso * x + sesgo), ¿cómo sabría qué variables son más importantes que otras? Tengo una red neuronal con 10 entradas, 1 capa oculta con 20 nodos y 1 capa de salida que tiene 1 nodo. No estoy seguro de cómo saber qué variables de entrada son más...
Estoy leyendo el siguiente blog sobre la red neuronal LSTM: http://machinelearningmastery.com/understanding-stateful-lstm-recurrent-neural-networks-python-keras/ El autor da nueva forma al vector de entrada X como [muestras, pasos de tiempo, características] para diferentes configuraciones de...
¿Podemos dar imágenes con tamaño variable como entrada a una red neuronal convolucional para la detección de objetos? Si es posible, ¿cómo podemos hacer eso? Pero si tratamos de recortar la imagen, perderemos una parte de la imagen y si tratamos de cambiar el tamaño, se perderá la claridad de la...
Tensorflow tiene un tutorial de ejemplo sobre la clasificación de CIFAR-10 . En el tutorial, la pérdida de entropía cruzada promedio en todo el lote se minimiza. def loss(logits, labels): """Add L2Loss to all the trainable variables. Add summary for for "Loss" and "Loss/avg". Args: logits:...
Esto se refiere al documento Localización eficiente de objetos mediante redes convolucionales , y por lo que entiendo, el abandono se implementa en 2D. Después de leer el código de Keras sobre cómo se implementa el Dropout 2D espacial, básicamente se implementa una máscara binaria aleatoria de...
¿Tiene sentido el costo de la entropía cruzada en el contexto de la regresión (en oposición a la clasificación)? Si es así, ¿podría dar un ejemplo de juguete a través de TensorFlow? ¿Si no, porque no? Estaba leyendo acerca de la entropía cruzada en Redes Neurales y Aprendizaje Profundo por Michael...
Tengo datos sin procesar que tienen alrededor de 20 columnas (20 características). Diez de ellos son datos continuos y 10 de ellos son categóricos. Algunos de los datos categóricos pueden tener como 50 valores diferentes (Estados de EE. UU.). Después de preprocesar los datos, las 10 columnas...
Un extraño al campo ML / DL; comenzó el curso Udacity Deep Learning que se basa en Tensorflow; haciendo la tarea 3 problema 4; tratando de ajustar la velocidad de aprendizaje con la siguiente configuración: Tamaño de lote 128 Número de pasos: suficiente para llenar 2 épocas Tamaños de capas...