Estaba escuchando una charla y vi esta diapositiva: Que tan cierto
Estaba escuchando una charla y vi esta diapositiva: Que tan cierto
Bueno, la pregunta lo dice todo. ¿Qué se entiende por "preentrenamiento de una red neuronal"? ¿Alguien puede explicar en inglés simple y puro? Parece que no puedo encontrar ningún recurso relacionado con él. Sería genial si alguien me puede señalar a
Hay un hilo similar aquí (¿ La función de costo de la red neuronal no es convexa? ) Pero no pude entender los puntos en las respuestas allí y mi razón para preguntar nuevamente con la esperanza de que esto aclare algunos problemas: Si estoy usando la función de suma de costo de diferencia al...
Para ilustrar mi pregunta, suponga que tengo un conjunto de entrenamiento donde la entrada tiene un grado de ruido pero la salida no, por ejemplo; # Training data [1.02, 1.95, 2.01, 3.06] : [1.0] [2.03, 4.11, 5.92, 8.00] : [2.0] [10.01, 11.02, 11.96, 12.04] : [1.0] [2.99, 6.06, 9.01, 12.10] :...
Estaba leyendo el documento de normalización de lotes (BN) (1) y no entendía la necesidad de usar promedios móviles para rastrear la precisión del modelo e incluso si aceptaba que era lo correcto, no entiendo qué están haciendo exactamente. Según tengo entendido (que puede estar equivocado), el...
Esta pregunta ya tiene respuestas aquí : ¿Cómo puede ser positivo el cambio en la función de costos? (1 respuesta) ¿Qué debo hacer cuando mi red neuronal no aprende? (5 respuestas) Cerrado el mes pasado . Estoy entrenando un modelo (red neuronal...
Una limitación de los algoritmos de red neuronal estándar (como backprop) es que debe tomar una decisión de diseño de cuántas capas ocultas y neuronas por capa desea. Por lo general, la tasa de aprendizaje y la generalización son muy sensibles a estas elecciones. Esta ha sido la razón por la cual...
A menudo se menciona que las unidades lineales rectificadas (ReLU) han reemplazado a las unidades softplus porque son lineales y más rápidas de calcular. ¿Softplus todavía tiene la ventaja de inducir la dispersión o está restringido a la ReLU? La razón por la que pregunto es porque me pregunto...
Hace poco, estaba trabajando en el aprendizaje de algoritmos de refuerzo, como adaboost, aumento de gradiente, y he sabido que el árbol de aprendizaje débil más utilizado es el árbol. Realmente quiero saber si hay algunos ejemplos recientes exitosos (me refiero a algunos artículos o artículos) para...
Fondo: Sí, la máquina de Boltzmann restringida (RBM) PUEDE usarse para iniciar los pesos de una red neuronal. También puede ser utilizado de una manera "capa por capa" para construir una red profunda creencia (es decir, para entrenar a un capa -ésima en la parte superior de ( n - 1 ) capa de...
Aquí, eche un vistazo: puede ver exactamente dónde terminan los datos de entrenamiento. Los datos de entrenamiento van de a .−1−1-1111 Usé Keras y una red densa 1-100-100-2 con activación de tanh. Calculo el resultado a partir de dos valores, p y q como p / q. De esta manera puedo lograr...
Para un modelo lineal , el término de contracción siempre es .y=β0+xβ+εy=β0+xβ+εy=\beta_0+x\beta+\varepsilonP(β)P(β)P(\beta) ¿Cuál es la razón por la que no término de sesgo (intercepción) ? ¿Deberíamos reducir el término de sesgo en los modelos de redes
Me gustaría saber si existe un código para entrenar una red neuronal convolucional para hacer una clasificación de series de tiempo. He visto algunos documentos recientes ( http://www.fer.unizg.hr/_download/repository/KDI-Djalto.pdf ) pero no estoy seguro de si existe algo o si lo he codificado yo...
Básicamente, mi pregunta es que en los perceptrones multicapa, los perceptrones se usan con una función de activación sigmoidea. Para que en la regla de actualización se calcule comoy^y^\hat{y} y^= 11 + exp( - wTXyo)y^=11+exp(-wTXyo)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} ¿En qué...
La aplicación de la función softmax en un vector producirá "probabilidades" y valores entre y . 000111 Pero también podemos dividir cada valor por la suma del vector y eso producirá probabilidades y valores entre y .000111 Leí la respuesta aquí, pero dice que la razón es porque es diferenciable,...
Estoy tratando de entender las diferentes arquitecturas de redes neuronales recurrentes (RNN) que se aplicarán a los datos de series temporales y me estoy confundiendo un poco con los diferentes nombres que se usan con frecuencia al describir los RNN. ¿Es la estructura de la memoria a corto plazo...
En aplicación de la Tensorflow ResNet , encuentro que utilizan la variación de escala inicializador, también encuentro Xavier inicializador es popular. No tengo mucha experiencia en esto, ¿qué es mejor en la
Estoy entrenando una red neuronal (los detalles no son importantes) donde los datos objetivo son un vector de ángulos (entre 0 y 2 * pi). Estoy buscando consejos sobre cómo codificar estos datos. Esto es lo que estoy intentando actualmente (con éxito limitado): 1) Codificación 1-de-C: pongo los...
¿Por qué no funciona la propagación hacia atrás cuando inicializa todo el peso con el mismo valor (digamos 0.5), pero funciona bien cuando se le dan números aleatorios? ¿No debería el algoritmo calcular el error y trabajar desde allí, a pesar de que los pesos son inicialmente los...
Con todos los medios de comunicación y exageraciones sobre el aprendizaje profundo en estos días, leí algunas cosas elementales al respecto. Acabo de descubrir que es solo otro método de aprendizaje automático para aprender patrones a partir de datos. Pero mi pregunta es: ¿dónde brilla y por qué...