En Introducción acabo de cambiar loss = tf.reduce_mean(tf.square(y - y_data)) a loss = tf.reduce_mean(tf.abs(y - y_data)) y el modelo no puede aprender, la pérdida se hizo más grande con el tiempo. ¿Por
En Introducción acabo de cambiar loss = tf.reduce_mean(tf.square(y - y_data)) a loss = tf.reduce_mean(tf.abs(y - y_data)) y el modelo no puede aprender, la pérdida se hizo más grande con el tiempo. ¿Por
Existen varios enfoques de selección de características / selección de variables (ver, por ejemplo, Guyon y Elisseeff, 2003 ; Liu et al., 2010 ): métodos de filtro (por ejemplo, basado en correlación, basado en entropía, basado en importancia aleatoria del bosque), métodos de envoltura (p. ej.,...
La deserción ( papel , explicación ) establece la salida de algunas neuronas a cero. Entonces, para un MLP, podría tener la siguiente arquitectura para el conjunto de datos de flores Iris : 4 : 50 (tanh) : dropout (0.5) : 20 (tanh) : 3 (softmax) Funcionaría así: s o ft m a x ( W3⋅ tanh( W2⋅...
¿Hay alguna manera de mantener una variable (cuadro grande / marco de datos) en la memoria y compartirla en múltiples computadoras portátiles ipython? Estaría buscando algo, que es conceptualmente similar a las variables persistentes de MATLAB. Allí es posible llamar a una función / biblioteca...
Me pregunto cómo interpretar una arquitectura recurrente en un contexto EEG. Específicamente, estoy pensando en esto como una CNN recurrente (a diferencia de arquitecturas como LSTM), pero tal vez también se aplique a otros tipos de redes recurrentes Cuando leo sobre R-CNN, generalmente se...
Me gustaría poder estimar si un modelo propuesto es lo suficientemente pequeño como para ser entrenado en una GPU con una cantidad dada de memoria Si tengo una arquitectura CNN simple como esta: Input: 50x50x3 C1: 32 núcleos 3x3, con relleno (supongo que en realidad son 3x3x3 dada la profundidad...
Del tutorial de XGBoost, creo que cuando crece cada árbol, se escanean todas las variables para seleccionarlas para dividir los nodos, y se elegirá la que tenga la división de ganancia máxima. Entonces, mi pregunta es: ¿qué sucede si agrego algunas variables de ruido en el conjunto de datos, estas...
He entendido cómo funciona GAN, mientras que dos redes (generativa y discriminativa) compiten entre sí. He creado un DCGAN (GAN con discriminador convolucional y generador desconvolucional) que ahora genera con éxito dígitos escritos a mano similares a los del conjunto de datos MNIST. He leído...
Antecedentes: al ajustar las redes neuronales con la activación de relu, descubrí que a veces la predicción se vuelve casi constante. Creo que esto se debe a que las neuronas relu mueren durante el entrenamiento como se indica aquí. ( ¿Cuál es el problema "moribundo ReLU" en las redes neuronales?...
Supongamos que estamos utilizando un tamaño de lote de 100 muestras para el aprendizaje. Entonces, en cada lote, el peso de cada neurona (y sesgo, etc.) se actualiza agregando el menos de la tasa de aprendizaje * el valor de error promedio que encontramos usando las 100 muestras * la derivada de...
Mi pregunta es esta: ¿Hay alguna diferencia entre el aprendizaje automático y la inteligencia artificial? ¿O estos términos se refieren a lo
Estoy trabajando en una aplicación para ayudar a las personas a aprender inglés como segundo idioma. He validado que las oraciones ayudan a aprender un idioma al proporcionar un contexto adicional. Lo hice realizando una pequeña investigación en un aula de 60 estudiantes. He extraído más de cien...
Soy un principiante en redes neuronales y actualmente estoy explorando el modelo word2vec. Sin embargo, me está costando entender cuál es exactamente la matriz de características. Puedo entender que la primera matriz es un vector de codificación de una sola palabra para una palabra dada, pero...
He leído la explicación de la convolución y la entiendo hasta cierto punto. ¿Alguien puede ayudarme a entender cómo esta operación se relaciona con la convolución en redes neuronales convolucionales? ¿Es el filtro como una función gque aplica
La normalización por lotes se describe en este documento como una normalización de la entrada a una función de activación con variables de escala y desplazamientoγγ\gamma y ββ\beta. Este artículo describe principalmente el uso de la función de activación sigmoidea, que tiene sentido. Sin embargo,...
Estoy en el proceso de preparación para impartir un curso introductorio sobre ciencia de datos utilizando el lenguaje de programación R. Mi audiencia son estudiantes de pregrado con especialización en temas de negocios. Un estudiante universitario de negocios típico no tiene experiencia en...
Me gustaría usar ANNs para mi problema, pero el problema es que mis números de nodo de entradas y salidas no son fijos. Hice una búsqueda en Google antes de hacer mi pregunta y descubrí que el RNN puede ayudarme con mi problema. Pero, todos los ejemplos que he encontrado son de alguna manera...
Tengo un conjunto de datos como este: Marco de datos de muestra import pandas as pd df = pd.DataFrame({ 'names': ['A','B','C','D','E','F','G','H','I','J','K','L'], 'col1': [0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0], 'col2': [0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0]}) Me gustaría reemplazar algunos de...
Tengo un conjunto de datos con 330 muestras y 27 características para cada muestra, con un problema de clase binaria para Regresión logística. De acuerdo con la "regla si son diez", necesito al menos 10 eventos para que se incluya cada característica. Sin embargo, tengo un conjunto de datos...
Ahora leo un libro titulado "Aprendizaje automático práctico con Scikit-Learn y TensorFlow" y en el capítulo 11, tiene la siguiente descripción sobre la explicación de ELU (Exponencial ReLU). Tercero, la función es suave en todas partes, incluso alrededor de z = 0, lo que ayuda a acelerar el...