Keras admite TensorFlow y Theano como backend: ¿cuáles son las ventajas y desventajas de elegir uno versus el otro, además del hecho de que actualmente no todas las operaciones se implementan con el backend
Keras admite TensorFlow y Theano como backend: ¿cuáles son las ventajas y desventajas de elegir uno versus el otro, además del hecho de que actualmente no todas las operaciones se implementan con el backend
Quizás esto es demasiado amplio, pero estoy buscando referencias sobre cómo utilizar el aprendizaje profundo en una tarea de resumen de texto. Ya he implementado el resumen de texto utilizando enfoques estándar de frecuencia de palabras y clasificación de oraciones, pero me gustaría explorar la...
Desde el código de Tensorflow : Tensorflow. RnnCell. num_units: int, The number of units in the LSTM cell. No puedo entender qué significa esto. ¿Cuáles son las unidades de la celda LSTM? Entrada, salida y olvidar puertas? ¿Significa esto "número de unidades en la capa de proyección recurrente...
Las funciones de activación se utilizan para introducir no linealidades en la salida lineal del tipo w * x + b en una red neuronal. Lo que puedo entender intuitivamente para las funciones de activación como sigmoide. Entiendo las ventajas de ReLU, que evita las neuronas muertas durante la...
Me preguntaba cómo tenemos que decidir cuántos nodos hay en capas ocultas, y cuántas capas ocultas colocar cuando construimos una arquitectura de red neuronal. Entiendo que la capa de entrada y salida depende del conjunto de capacitación que tengamos, pero ¿cómo decidimos la capa oculta y la...
Intento comprender el papel de la derivada de la función sigmoidea en las redes neuronales. Primero trazo la función sigmoide y la derivada de todos los puntos de la definición usando python. ¿Cuál es exactamente el papel de este derivado? import numpy as np import matplotlib.pyplot as...
He estado usando redes neuronales por un tiempo ahora. Sin embargo, una cosa con la que lucho constantemente es la selección de un optimizador para entrenar la red (usando backprop). Lo que generalmente hago es comenzar con uno (por ejemplo, SGD estándar) y luego probar otros más de manera bastante...
De Keras RNN Tutorial: "Los RNN son complicados. La elección del tamaño del lote es importante, la elección de la pérdida y el optimizador es crítica, etc. Algunas configuraciones no convergen". Entonces, esta es una pregunta más general sobre cómo ajustar los hiperparámetros de un LSTM-RNN en...
Tengo algunas dificultades para derivar la propagación hacia atrás con ReLU, e hice algo de trabajo, pero no estoy seguro de si estoy en el camino correcto. Función de costo: 12(y−y^)212(y−y^)2\frac{1}{2}(y-\hat y)^2, dondeyyyes el valor real, y Y es un valor predicho. También suponga quex> 0...
Estoy trabajando en una pregunta del libro en línea: http://neuralnetworksanddeeplearning.com/chap1.html Puedo entender que si la capa de salida adicional es de 5 neuronas de salida, probablemente podría establecer un sesgo de 0.5 y un peso de 0.5 cada una para la capa anterior. Pero la pregunta...
Tengo un conjunto de datos con 3 clases con los siguientes elementos: Clase 1: 900 elementos Clase 2: 15000 elementos. Clase 3: 800 elementos Necesito predecir la clase 1 y la clase 3, que indican desviaciones importantes de la norma. La clase 2 es el caso "normal" predeterminado que no me...
Estoy haciendo un proyecto sobre el problema de identificación del autor. Había aplicado la normalización tf-idf para entrenar datos y luego entrené un svm en esos datos. Ahora, al usar el clasificador, también debería normalizar los datos de prueba. Creo que el objetivo básico de la normalización...
Considere una red neuronal: Para un conjunto de datos dado, lo dividimos en entrenamiento, validación y conjunto de pruebas. Supongamos que lo hacemos en la clásica relación 60:20:20, luego evitamos el sobreajuste al validar la red verificándola en el conjunto de validación. Entonces, ¿cuál es la...
El ensacado es la generación de múltiples predictores que funciona como un conjunto de predictores únicos. La deserción es una técnica que enseña a las redes neuronales a promediar todas las subredes posibles. Mirando las competencias más importantes de Kaggle parece que estas dos técnicas se usan...
Aquí la respuesta se refiere a gradientes de desaparición y explosión que han estado en sigmoidfunciones de activación similares, pero supongo que Relutiene una desventaja y es su valor esperado. no hay limitación para la salida de Reluy, por lo tanto, su valor esperado no es cero. Recuerdo el...
Creo un corr()df a partir de un df original. El corr()DF salió 70 X 70 y es imposible de visualizar el mapa de calor ... sns.heatmap(df). Si trato de mostrar corr = df.corr(), la tabla no se ajusta a la pantalla y puedo ver todas las correlaciones. ¿Es una forma de imprimir todo dfsin importar su...
Sé que no hay una respuesta clara para esta pregunta, pero supongamos que tengo una gran red neuronal, con muchos datos y quiero agregar una nueva característica en la entrada. La "mejor" forma sería probar la red con la nueva función y ver los resultados, pero ¿existe algún método para probar si...
Supongamos que tenemos dos tipos de características de entrada, categóricas y continuas. Los datos categóricos pueden representarse como un código de acceso directo A, mientras que los datos continuos son solo un vector B en el espacio de dimensión N. Parece que simplemente usar concat (A, B) no es...
Estoy jugando un poco con convnets. Específicamente, estoy usando el conjunto de datos kaggle cats-vs-dogs que consta de 25000 imágenes etiquetadas como gato o perro (12500 cada una). Me las arreglé para lograr una precisión de clasificación de alrededor del 85% en mi conjunto de pruebas, sin...
Mientras leía sobre la generación de texto con redes neuronales recurrentes, noté que algunos ejemplos se implementaron para generar texto palabra por palabra y otros carácter por carácter sin decir realmente por qué. Entonces, ¿cuál es la diferencia entre los modelos RNN que predicen texto por...