¿Cuál es la diferencia entre la pendiente de gradiente y la pendiente de gradiente estocástica? No estoy muy familiarizado con estos, ¿puede describir la diferencia con un breve
¿Cuál es la diferencia entre la pendiente de gradiente y la pendiente de gradiente estocástica? No estoy muy familiarizado con estos, ¿puede describir la diferencia con un breve
Actualmente estoy trabajando con Python y Scikit para fines de clasificación, y leyendo un poco sobre GridSearch, pensé que esta era una excelente manera de optimizar los parámetros de mi estimador para obtener los mejores resultados. Mi metodología es esta: Dividir mis datos en entrenamiento /...
Existen muchas técnicas para visualizar conjuntos de datos de alta dimensión, como T-SNE, isomap, PCA, PCA supervisada, etc. Y hacemos los movimientos de proyectar los datos en un espacio 2D o 3D, por lo que tenemos "imágenes bonitas ". Aquí se describen algunos de estos métodos de inclusión...
¿Es mejor codificar características como mes y hora como factor o numérico en un modelo de aprendizaje automático? Por un lado, creo que la codificación numérica podría ser razonable, porque el tiempo es un proceso progresivo (el quinto mes es seguido por el sexto mes), pero por otro lado, creo...
Cerrada . Esta pregunta está basada en la opinión . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que pueda ser respondida con hechos y citas editando esta publicación . Cerrado hace 5 años . No sé si...
Estoy buscando un documento que detalle los conceptos básicos del aprendizaje profundo. Idealmente como el curso Andrew Ng para aprendizaje profundo. ¿Sabes dónde puedo encontrar
Estaba leyendo sobre la solución a este desafío OTTO Kaggle y la solución del primer lugar parece usar varias transformaciones para los datos de entrada X, por ejemplo Log (X + 1), sqrt (X + 3/8), etc. ¿Hay un guía general sobre cuándo aplicar qué transformaciones de tipo a varios...
A menudo escuché a personas decir que por qué las redes neuronales convolucionales todavía se entienden mal. ¿Se sabe por qué las redes neuronales convolucionales siempre terminan aprendiendo características cada vez más sofisticadas a medida que avanzamos en las capas? ¿Qué les causó crear una...
¿Cómo calcular el mAP (precisión media promedio) para la tarea de detección de las tablas de clasificación de Pascal VOC? http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=4 Dicho esto, en la página 11 :
Quiero calcular la precisión, la recuperación y la puntuación F1 para mi modelo binario KerasClassifier, pero no encuentro ninguna solución. Aquí está mi código real: # Split dataset in train and test data X_train, X_test, Y_train, Y_test = train_test_split(normalized_X, Y, test_size=0.3,...
Estaba revisando la documentación oficial de scikit-learn learn después de leer un libro sobre ML y encontré lo siguiente: En la Documentación se trata, sklearn.preprocessing.OrdinalEncoder()mientras que en el libro se trata sklearn.preprocessing.LabelEncoder(), cuando verifiqué su funcionalidad,...
Recientemente se le preguntó a un amigo mío si los algoritmos del árbol de decisión son algoritmos lineales o no lineales en una entrevista. Traté de buscar respuestas a esta pregunta pero no pude encontrar ninguna explicación satisfactoria. ¿Alguien puede responder y explicar la solución a esta...
Me pregunto si hay algún escenario en el que el descenso de gradiente no converja al mínimo. Soy consciente de que no siempre se garantiza que el descenso de gradiente converja a un óptimo global. También soy consciente de que podría diferir de un óptimo si, por ejemplo, el tamaño del paso es...
Al leer este documento, hay una línea que dice "los clasificadores lineales no comparten parámetros entre entidades y clases". ¿Cuál es el significado de esta declaración? ¿Significa que los clasificadores lineales como la regresión logística necesitan características que sean mutuamente...
Cuando leía sobre el uso StandardScaler, la mayoría de las recomendaciones decían que debería usar StandardScaler antes de dividir los datos en tren / prueba, pero cuando estaba revisando algunos de los códigos publicados en línea (usando sklearn) había dos usos principales. 1- Uso...
Estoy tratando de encontrar una fórmula, método o modelo para usar para analizar la probabilidad de que un evento específico influya en algunos datos longitudinales. Tengo dificultades para averiguar qué buscar en Google. Aquí hay un escenario de ejemplo: Imagen que posee un negocio que tiene un...
En general, el modelo de aprendizaje automático se basa en conjuntos de datos. ¿Me gustaría saber si hay alguna forma de generar un conjunto de datos sintéticos utilizando un modelo de aprendizaje automático tan capacitado que conserve las características originales del conjunto de datos? [datos...
Me preguntaba cómo tenemos que decidir cuántos nodos hay en capas ocultas, y cuántas capas ocultas colocar cuando construimos una arquitectura de red neuronal. Entiendo que la capa de entrada y salida depende del conjunto de capacitación que tengamos, pero ¿cómo decidimos la capa oculta y la...
El problema que estoy abordando es categorizar textos cortos en varias clases. Mi enfoque actual es utilizar frecuencias de término ponderadas tf-idf y aprender un clasificador lineal simple (regresión logística). Esto funciona razonablemente bien (alrededor del 90% de macro F-1 en el conjunto de...
Las funciones de activación se utilizan para introducir no linealidades en la salida lineal del tipo w * x + b en una red neuronal. Lo que puedo entender intuitivamente para las funciones de activación como sigmoide. Entiendo las ventajas de ReLU, que evita las neuronas muertas durante la...