Cuando hacemos validación cruzada k-fold, ¿deberíamos usar el clasificador que tiene la mayor precisión de prueba? ¿Cuál es generalmente el mejor enfoque para obtener un clasificador de la validación
Cuando hacemos validación cruzada k-fold, ¿deberíamos usar el clasificador que tiene la mayor precisión de prueba? ¿Cuál es generalmente el mejor enfoque para obtener un clasificador de la validación
Si eliminar algunas neuronas da como resultado un modelo de mejor rendimiento, ¿por qué no utilizar una red neuronal más simple con menos capas y menos neuronas en primer lugar? ¿Por qué construir un modelo más grande y complicado al principio y suprimir partes de él más
Estoy explorando diferentes tipos de estructuras de árbol de análisis. Las dos estructuras de árbol de análisis ampliamente conocidas son: a) árbol de análisis basado en la circunscripción yb) estructuras de árbol de análisis basadas en la dependencia. Puedo usar generar ambos tipos de estructuras...
Recientemente me introdujeron en el campo de la Ciencia de Datos (han pasado 6 meses aproximadamente), y Ii comenzó el viaje con el Curso de Aprendizaje Automático de Andrew Ng y la publicación que comenzó a trabajar en la Especialización en Ciencia de Datos de JHU. En el frente de la aplicación...
Estoy tratando de encontrar un equivalente de diagramas de Hinton para redes de múltiples capas para trazar los pesos durante el entrenamiento. La red entrenada es algo similar a un SRN profundo, es decir, tiene una gran cantidad de matrices de peso múltiple que harían visualmente confuso el...
¿Alguien puede decirme cuál es el propósito de la generación de características? ¿Y por qué se necesita el enriquecimiento del espacio de características antes de clasificar una imagen? ¿Es un paso necesario? ¿Hay algún método para enriquecer el espacio de
Si tengo un hipercubo de 50 dimensiones. Y defino su límite por o donde es la dimensión del hipercubo. Luego, calcular la proporción de puntos en el límite del hipercubo será . Qué significa eso? ¿Significa que el resto del espacio está vacío? Si el de los puntos están en el límite, entonces los...
Una oración comúnmente escuchada en el aprendizaje automático sin supervisión es Las entradas de alta dimensión generalmente viven en o cerca de un múltiple de baja dimensión ¿Qué es una dimensión? ¿Qué es un múltiple? ¿Cuál es la diferencia? ¿Puedes dar un ejemplo para describir...
Soy un principiante en Machine Learning. En SVM, el hiperplano de separación se define como . Por eso decimos vector ortogonal al hiperplano que separa?wy=wTx+by=wTx+by = w^T x +
Tengo una pequeña subpregunta a esta pregunta . Entiendo que cuando se propaga hacia atrás a través de una capa de agrupación máxima, el gradiente se enruta de manera que la neurona en la capa anterior que se seleccionó como máxima obtiene todo el gradiente. De lo que no estoy 100% seguro es de...
Si entreno a mi modelo con el siguiente código: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix...
Quiero saber si el descenso de gradiente es el algoritmo principal utilizado en optimizadores como Adam, Adagrad, RMSProp y varios otros optimizadores.
Hola, tengo un marco de datos con grandes valores categóricos en más de 1600 categorías. ¿Hay alguna forma de encontrar alternativas para no tener más de 1600 columnas? Encontré esto debajo del enlace interesante http://amunategui.github.io/feature-hashing/#sourcecode Pero se están convirtiendo a...
Soy un principiante en el aprendizaje automático y me enfrento a una situación. Estoy trabajando en un problema de oferta en tiempo real, con el conjunto de datos IPinYou y estoy tratando de hacer una predicción de clics. El hecho es que, como ya sabrá, el conjunto de datos está muy...
¿Existe algún método para calcular el intervalo de predicción (distribución de probabilidad) alrededor de un pronóstico de serie temporal de una red neuronal LSTM (u otra red recurrente)? Digamos, por ejemplo, que pronostico 10 muestras en el futuro (t + 1 a t + 10), con base en las últimas 10...
Actualmente estoy tratando de entender la arquitectura de una CNN. Entiendo la convolución, la capa ReLU, la capa de agrupación y la capa totalmente conectada. Sin embargo, todavía estoy confundido acerca de los pesos. En una red neuronal normal, cada neurona tiene su propio peso. En la capa...
Y( x )Y(X)Y(x)Y^( x )Y^(X)\hat Y(x)Y( x )Y(X)Y(x)costo { Y( x ) ≳ Y^( X ) } > > coste { Y^( x ) ≳ Y( x ) }costo{Y(X)≳Y^(X)}>>costo{Y^(X)≳Y(X)}\text{cost}\left\{ Y(x) \gtrsim \hat Y(x) \right\} >> \text{cost}\left\{ \hat Y(x) \gtrsim Y(x) \right\} Creo que una regresión lineal simple...
Estoy buscando encontrar pesos pre-entrenados de modelos ya entrenados como datos de Google News, etc. Me resultó difícil entrenar un nuevo modelo con suficiente cantidad (10 GB, etc.) de datos para mí. Por lo tanto, quiero aprovechar el aprendizaje de transferencia en el que podría obtener pesos...
Estoy leyendo una presentación y recomienda no utilizar la codificación de omisión, pero está bien con una codificación activa. Pensé que ambos eran lo mismo. ¿Alguien puede describir cuáles son las diferencias entre
He estado usando esta biblioteca para la construcción y análisis básicos de redes neuronales. Sin embargo, no tiene soporte para construir redes neuronales de varias capas, etc. Por lo tanto, me gustaría conocer cualquier biblioteca agradable para hacer redes neuronales avanzadas y aprendizaje...