¿Por qué es peligroso inicializar pesos con ceros? ¿Hay algún ejemplo simple que lo
¿Por qué es peligroso inicializar pesos con ceros? ¿Hay algún ejemplo simple que lo
Estaba leyendo el documento ImageNet Classification with Deep Convolutional Neural Networks y en la sección 3, donde explicaron la arquitectura de su red neuronal convolucional, explicaron cómo preferían usar: no linealidad no saturanteF( x ) = m a x ( 0 , x ) .F(X)=metrounaX(0 0,X).f(x) =...
¿Cuál es la diferencia entre la red neuronal , la red bayesiana , el árbol de decisión y las redes de Petri , a pesar de que todos son modelos gráficos y representan visualmente la relación
Cerrado. Esta pregunta está fuera de tema . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que esté en el tema de Cross Validated. Cerrado hace 2 años . Estoy usando caret para ejecutar un bosque...
Explicaré mi problema con un ejemplo. Suponga que desea predecir el ingreso de un individuo dados algunos atributos: {Edad, Sexo, País, Región, Ciudad}. Tienes un conjunto de datos de entrenamiento como este train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2,...
¿Por qué se usan los nodos de sesgo en las redes neuronales? ¿Cuántos deberías usar? ¿En qué capas debe usarlas: todas las capas ocultas y la capa de
Estoy entrenando una red neuronal simple en el conjunto de datos CIFAR10. Después de un tiempo, la pérdida de validación comenzó a aumentar, mientras que la precisión de la validación también está aumentando. La pérdida de prueba y la precisión de la prueba continúan mejorando. ¿Cómo es esto...
Estoy confundido. ¿Hay alguna diferencia entre las redes de creencias profundas y las máquinas Deep Boltzmann? Si es así, ¿cuál es la
Suponga que quiero hacer una clasificación binaria (algo pertenece a la clase A o clase B). Hay algunas posibilidades para hacer esto en la capa de salida de una red neuronal: Use 1 nodo de salida. La salida 0 (<0.5) se considera clase A y 1 (> = 0.5) se considera clase B (en caso de...
Para los modelos estadísticos y de aprendizaje automático, existen múltiples niveles de interpretación: 1) el algoritmo en su conjunto, 2) partes del algoritmo en general 3) partes del algoritmo en entradas particulares, y estos tres niveles se dividen en dos partes cada uno, uno para entrenamiento...
Al entrenar una red neuronal de segmentación de píxeles, como redes completamente convolucionales, ¿cómo toma la decisión de utilizar la función de pérdida de entropía cruzada versus la función de pérdida de coeficiente de dados? Me doy cuenta de que esta es una pregunta corta, pero no estoy muy...
Digamos que queremos hacer una regresión simple f = x * yusando una red neuronal profunda estándar. Recuerdo que hay investigaciones que indican que NN con una capa oculta puede aproximarse a cualquier función, pero he intentado y sin normalización, NN no pudo aproximar ni siquiera esta simple...
Leí aquí lo siguiente: Las salidas sigmoideas no están centradas en cero . Esto no es deseable ya que las neuronas en las capas posteriores de procesamiento en una red neuronal (más sobre esto pronto) recibirían datos que no están centrados en cero. Esto tiene implicaciones en la dinámica...
Estoy interesado en la regresión con redes neuronales. Las redes neuronales con cero nodos ocultos + conexiones de capa de salto son modelos lineales. ¿Qué pasa con las mismas redes neuronales pero con nodos ocultos? Me pregunto cuál sería el papel de las conexiones de salto de...
Mi pérdida de entrenamiento baja y luego vuelve a subir. Es muy raro La pérdida de validación cruzada rastrea la pérdida de entrenamiento. Que esta pasando? Tengo dos LSTMS apilados de la siguiente manera (en Keras): model = Sequential() model.add(LSTM(512, return_sequences=True,...
¿Cuáles son las ventajas? ¿Por qué uno usaría múltiples LSTM, apilados uno al lado del otro, en una red profunda? Estoy usando un LSTM para representar una secuencia de entradas como una sola entrada. Entonces, una vez que tenga esa representación única, ¿por qué volvería a pasarla? Lo pregunto...
Cerrada . Esta pregunta está basada en la opinión . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que pueda ser respondida con hechos y citas editando esta publicación . Cerrado hace 2 años . Problema...
Esta pregunta se migró de Stack Overflow porque se puede responder en Cross Validated. Migrado hace 7 años . Estoy tratando de aprender cómo funciona la red neuronal en el reconocimiento de imágenes. He visto algunos ejemplos y me confundo aún más. En el ejemplo del...
¿Por qué las funciones de activación de unidades lineales rectificadas (ReLU) se consideran no lineales? F( x ) = max ( 0 , x )f(x)=max(0,x) f(x) = \max(0,x) Son lineales cuando la entrada es positiva y, según tengo entendido, para desbloquear el poder representativo de las redes profundas, las...
Me he estado preguntando, ¿por qué es tan importante tener un aprendizaje automático basado en principios / teórico? Desde una perspectiva personal como humano, puedo entender por qué el aprendizaje automático basado en principios sería importante: A los humanos les gusta entender lo que están...