¿Existe un método estándar y aceptado para seleccionar el número de capas y el número de nodos en cada capa, en una red neuronal de avance? Estoy interesado en formas automatizadas de construir redes
Las redes neuronales artificiales (ANN) son una amplia clase de modelos computacionales basados libremente en redes neuronales biológicas. Abarcan NN de avance (incluidas las NN "profundas"), NN convolucionales, NN recurrentes, etc.
¿Existe un método estándar y aceptado para seleccionar el número de capas y el número de nodos en cada capa, en una red neuronal de avance? Estoy interesado en formas automatizadas de construir redes
Al entrenar una red neuronal, qué diferencia hace establecer: tamaño del lote a y el número de iteraciones para bunaaasibb vs. tamaño de lote a y número de iteraciones a dCccredd donde ?a b = c dab=cd ab = cd Para decirlo de otra manera, suponiendo que entrenemos la red neuronal con la misma...
Estoy seguro de que muchas personas responderán con enlaces para 'déjame buscar eso en Google', así que quiero decir que he tratado de resolver esto, así que perdona mi falta de comprensión aquí, pero no puedo entender cómo La implementación práctica de una red neuronal realmente funciona....
Estoy usando Python Keras packagepara la red neuronal. Este es el enlace . ¿Es batch_sizeigual al número de muestras de prueba? De Wikipedia tenemos esta información: Sin embargo, en otros casos, evaluar el gradiente de suma puede requerir evaluaciones costosas de los gradientes de todas las...
Estoy entrenando una red neuronal pero la pérdida de entrenamiento no disminuye. ¿Cómo puedo arreglar esto? No estoy preguntando sobre el sobreajuste o la regularización. Estoy preguntando cómo resolver el problema donde el rendimiento de mi red no mejora en el conjunto de entrenamiento . Esta...
El estado del arte de la no linealidad es utilizar unidades lineales rectificadas (ReLU) en lugar de la función sigmoidea en la red neuronal profunda. ¿Cuáles son las ventajas? Sé que entrenar una red cuando se usa ReLU sería más rápido, y tiene más inspiración biológica, ¿cuáles son las otras...
¿Cuáles son las funciones de costo comunes utilizadas en la evaluación del rendimiento de las redes neuronales? Detalles (siéntase libre de omitir el resto de esta pregunta, mi intención aquí es simplemente proporcionar una aclaración sobre la notación que las respuestas pueden usar para...
Recientemente he estado leyendo sobre el aprendizaje profundo y estoy confundido acerca de los términos (o decir tecnologías). Cuál es la diferencia entre Redes neuronales convolucionales (CNN), Máquinas de Boltzmann restringidas (RBM) y Codificadores
No he visto la pregunta precisamente en estos términos, y es por eso que hago una nueva pregunta. Lo que me interesa saber no es la definición de una red neuronal, sino comprender la diferencia real con una red neuronal profunda. Para más contexto: sé qué es una red neuronal y cómo funciona la...
Actualmente estoy haciendo el Tutorial de aprendizaje profundo de Udacity. En la Lección 3, hablan sobre una convolución 1x1. Esta convolución 1x1 se usa en el Módulo de inicio de Google. Tengo problemas para entender qué es una convolución 1x1. También he visto esta publicación de Yann...
Muchos libros y tutoriales de redes neuronales dedican mucho tiempo al algoritmo de retropropagación, que es esencialmente una herramienta para calcular el gradiente. Supongamos que estamos construyendo un modelo con ~ 10K parámetros / pesos. ¿Es posible ejecutar la optimización usando algunos...
En el contexto de las redes neuronales, ¿cuál es la diferencia entre la tasa de aprendizaje y la pérdida de peso?
En muchas bibliotecas de redes neuronales, hay 'capas de incrustación', como en Keras o Lasagne . No estoy seguro de entender su función, a pesar de leer la documentación. Por ejemplo, en la documentación de Keras dice: Convierta enteros positivos (índices) en vectores densos de tamaño fijo,...
Soy nuevo en el aprendizaje automático, y he estado tratando de descubrir cómo aplicar la red neuronal al pronóstico de series temporales. He encontrado recursos relacionados con mi consulta, pero parece que todavía estoy un poco perdido. Creo que una explicación básica sin demasiados detalles...
La función de activación de tanh es: tanh(x)=2⋅σ(2x)−1tanh(x)=2⋅σ(2x)−1tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1 Donde σ(x)σ(x)\sigma(x) , la función sigmoide, se define como: σ(x)=ex1+exσ(x)=ex1+ex\sigma(x) = \frac{e^x}{1 + e^x} . Preguntas: ¿Realmente importa entre...
En los últimos años, las redes neuronales convolucionales (o quizás redes neuronales profundas en general) se han vuelto cada vez más profundas, con redes de vanguardia que van de 7 capas ( AlexNet ) a 1000 capas ( Redes residuales) en el espacio de 4 años. La razón detrás del aumento en el...
Una época en el descenso de gradiente estocástico se define como un solo paso a través de los datos. Para cada minibatch SGD, se extraen muestras, se calcula el gradiente y se actualizan los parámetros. En la configuración de época, las muestras se extraen sin reemplazo.kkk Pero esto parece...
Acabo de escuchar que es una buena idea elegir los pesos iniciales de una red neuronal del rango , donde es el cantidad de entradas a una neurona dada. Se supone que los conjuntos están normalizados: media 0, varianza 1 (no sé si esto importa).d( - 1re√, 1re√)(−1d,1d)(\frac{-1}{\sqrt d} ,...
Las redes neuronales recurrentes difieren de las "regulares" por el hecho de que tienen una capa de "memoria". Debido a esta capa, se supone que los NN recurrentes son útiles en el modelado de series temporales. Sin embargo, no estoy seguro de entender correctamente cómo usarlos. Digamos que tengo...
¿Hay alguna guía general sobre dónde colocar capas de abandono en una red