¿Cuál es la diferencia entre época e iteración cuando se entrena un perceptrón
El aprendizaje profundo es un área del aprendizaje automático cuyo objetivo es aprender funciones complejas utilizando arquitecturas de redes neuronales especiales que son "profundas" (constan de muchas capas). Esta etiqueta debe usarse para preguntas sobre la implementación de arquitecturas de aprendizaje profundo. Las preguntas generales sobre aprendizaje automático deben etiquetarse como "aprendizaje automático". Es útil incluir una etiqueta para la biblioteca de software relevante (por ejemplo, "keras", "tensorflow", "pytorch", "fast.ai", etc.).
¿Cuál es la diferencia entre época e iteración cuando se entrena un perceptrón
Estoy tratando de conciliar mi comprensión de los LSTM y lo señalé aquí en esta publicación de Christopher Olah implementado en Keras. Estoy siguiendo el blog escrito por Jason Brownlee para el tutorial de Keras. Lo que más me confunde es, La remodelación de la serie de datos en [samples, time...
¿Cuál es la diferencia entre 'mismo' y el relleno 'válidos' en el tf.nn.max_poolde tensorflow? En mi opinión, 'VÁLIDO' significa que no habrá relleno cero fuera de los bordes cuando hagamos el grupo máximo. De acuerdo con una guía de aritmética de convolución para el aprendizaje profundo , dice...
Para cualquier capa Keras ( Layerclase), ¿Puede alguien explicar cómo entender la diferencia entre input_shape, units, dim, etc.? Por ejemplo, el documento dice que unitsespecifique la forma de salida de una capa. En la imagen de la red neuronal a continuación hidden layer1tiene 4 unidades....
En la siguiente función TensorFlow, debemos alimentar la activación de neuronas artificiales en la capa final. Eso lo entiendo. Pero no entiendo por qué se llama logits? ¿No es esa una función matemática? loss_function = tf.nn.softmax_cross_entropy_with_logits( logits = last_layer, labels =...
Cuando entrené mi red neuronal con Theano o Tensorflow, informarán una variable llamada "pérdida" por época. ¿Cómo debo interpretar esta variable? Una pérdida mayor es mejor o peor, o ¿qué significa para el rendimiento final (precisión) de mi red
Estaba buscando formas alternativas de guardar un modelo entrenado en PyTorch. Hasta ahora, he encontrado dos alternativas. torch.save () para guardar un modelo y torch.load () para cargar un modelo. model.state_dict () para guardar un modelo entrenado y model.load_state_dict () para cargar el...
Estoy tratando de entrenar a una CNN para clasificar el texto por tema. Cuando uso entropía cruzada binaria obtengo ~ 80% de precisión, con entropía cruzada categórica obtengo ~ 50% de precisión. No entiendo por qué es esto. Es un problema multiclase, ¿eso no significa que tengo que usar entropía...
tf.nn.embedding_lookup(params, ids, partition_strategy='mod', name=None) No puedo entender el deber de esta función. ¿Es como una tabla de búsqueda? ¿Qué significa devolver los parámetros correspondientes a cada id (en ids)? Por ejemplo, en el skip-grammodelo si usamos
He entrenado un modelo de clasificación binaria con CNN, y aquí está mi código model = Sequential() model.add(Convolution2D(nb_filters, kernel_size[0], kernel_size[1], border_mode='valid', input_shape=input_shape)) model.add(Activation('relu')) model.add(Convolution2D(nb_filters, kernel_size[0],...
He estado leyendo algunas cosas en redes neuronales y entiendo el principio general de una red neuronal de capa única. Entiendo la necesidad de capas adicionales, pero ¿por qué se utilizan las funciones de activación no lineal? Esta pregunta es seguida por esta: ¿Cuál es una derivada de la función...
¿Alguien puede explicar claramente la diferencia entre convoluciones 1D, 2D y 3D en redes neuronales convolucionales (en aprendizaje profundo) con el uso de
Intento entender los LSTM y cómo construirlos con Keras. Descubrí que existen principalmente los 4 modos para ejecutar un RNN (los 4 correctos en la imagen) Fuente de la imagen: Andrej Karpathy Ahora me pregunto cómo se vería un fragmento de código minimalista para cada uno de ellos en Keras....
Estoy tratando de comprender el papel de la Flattenfunción en Keras. A continuación se muestra mi código, que es una red simple de dos capas. Toma datos bidimensionales de forma (3, 2) y genera datos unidimensionales de forma (1, 4): model = Sequential() model.add(Dense(16, input_shape=(3,...
¿Cómo inicializar los pesos y los sesgos (por ejemplo, con la inicialización de He o Xavier) en una red en PyTorch?
Si tenemos 10 vectores propios, entonces podemos tener 10 nodos neuronales en la capa de entrada. Si tenemos 5 clases de salida, entonces podemos tener 5 nodos en la capa de salida. Pero, ¿cuál es el criterio para elegir el número de capas ocultas en un MLP y cuántos neurales? nodos en 1 capa...
Estoy entrenando una red neuronal para mi proyecto usando Keras. Keras ha proporcionado una función para detenerse temprano. ¿Puedo saber qué parámetros deben observarse para evitar que mi red neuronal se sobreajuste mediante la detención
Considerando el código de ejemplo . Me gustaría saber cómo aplicar el recorte de gradiente en esta red en el RNN donde existe la posibilidad de explosiones de gradientes. tf.clip_by_value(t, clip_value_min, clip_value_max, name=None) Este es un ejemplo que podría usarse, pero ¿dónde lo...
Recientemente revisé una implementación interesante para la clasificación de texto convolucional . Sin embargo, todo el código de TensorFlow que he revisado utiliza vectores de incrustación aleatorios (no entrenados previamente) como los siguientes: with tf.device('/cpu:0'),...
Encontré en muchos códigos de redes neuronales disponibles implementados con TensorFlow que los términos de regularización a menudo se implementan agregando manualmente un término adicional al valor de pérdida. Mis preguntas son: ¿Existe una forma de regularización más elegante o recomendada que...