¿Alguien puede explicar prácticamente la razón detrás de la impureza de Gini frente a la ganancia de información (basada en la entropía)? ¿Qué métrica es mejor usar en diferentes escenarios al usar árboles de
¿Alguien puede explicar prácticamente la razón detrás de la impureza de Gini frente a la ganancia de información (basada en la entropía)? ¿Qué métrica es mejor usar en diferentes escenarios al usar árboles de
¿Cuáles son las diferencias, si las hay, entre un "científico de datos" y un "ingeniero de aprendizaje automático"? Durante el año pasado, el "ingeniero de aprendizaje automático" comenzó a aparecer mucho en las ofertas de trabajo. Esto es particularmente notable en San Francisco, que es...
Estaba empezando a mirar el área bajo la curva (AUC) y estoy un poco confundido acerca de su utilidad. Cuando me lo explicaron por primera vez, el AUC parecía ser una gran medida de rendimiento, pero en mi investigación descubrí que algunos afirman que su ventaja es mayormente marginal, ya que es...
Estoy haciendo algunos problemas en una aplicación de árbol de decisión / bosque aleatorio. Estoy tratando de ajustar un problema que tiene números y cadenas (como el nombre del país) como características. Ahora, la biblioteca, scikit-learn toma solo números como parámetros, pero quiero inyectar...
El problema con el que estoy lidiando es predecir valores de series de tiempo. Estoy viendo una serie de tiempo a la vez y, por ejemplo, en base al 15% de los datos de entrada, me gustaría predecir sus valores futuros. Hasta ahora me he encontrado con dos modelos: LSTM (memoria a corto plazo; una...
Estoy construyendo un modelo de regresión y necesito calcular lo siguiente para verificar las correlaciones Correlación entre 2 variables categóricas multinivel Correlación entre una variable categórica de niveles múltiples y una variable continua VIF (factor de inflación de varianza) para...
Estoy tratando de comenzar a aprender sobre RNN y estoy usando Keras. Entiendo la premisa básica de las capas RNN y LSTM de vainilla, pero tengo problemas para comprender un cierto punto técnico para el entrenamiento. En la documentación de Keras , dice que la entrada a una capa RNN debe tener...
Esta es una pequeña pregunta conceptual que me ha estado molestando por un tiempo: ¿Cómo podemos propagarnos a través de una capa de agrupación máxima en una red neuronal? Me encontré con capas de agrupación máxima mientras revisaba este tutorial para la biblioteca nn de Torch 7. La biblioteca...
Antecedentes del problema: estoy trabajando en un proyecto que involucra archivos de registro similares a los que se encuentran en el espacio de monitoreo de TI (para mi mejor comprensión del espacio de TI). Estos archivos de registro son datos de series temporales, organizados en cientos / miles...
De wikipedia, La reducción de dimensionalidad o reducción de dimensión es el proceso de reducir el número de variables aleatorias bajo consideración, y puede dividirse en selección de características y extracción de características. ¿Cuál es la diferencia entre la selección de características...
¿Cómo podría dividir aleatoriamente una matriz de datos y el vector de etiqueta correspondiente en un X_train, X_test, X_val, y_train, y_test, y_val con Sklearn? Que yo sepa, sklearn.cross_validation.train_test_splitsolo es capaz de dividirse en dos, no en tres
Esta pregunta es en respuesta a un comentario que vi en otra pregunta. El comentario fue sobre el programa de estudios de Machine Learning en Coursera, y en la línea de "SVMs no se utilizan tanto hoy en día". Acabo de terminar las conferencias relevantes por mí mismo, y entiendo que los SVM son...
La lógica a menudo establece que al equipar un modelo de manera insuficiente, aumenta su capacidad de generalizar. Dicho esto, claramente en algún momento la falta de adecuación de un modelo hace que los modelos empeoren independientemente de la complejidad de los datos. ¿Cómo sabe cuándo su...
Recientemente leí el comentario de Yan LeCuns sobre convoluciones 1x1 : En las redes convolucionales, no existen las "capas completamente conectadas". Solo hay capas de convolución con núcleos de convolución 1x1 y una tabla de conexión completa. Es un hecho que rara vez se entiende que...
Veo muchas veces en la descripción del trabajo de un científico de datos que solicita experiencia en Python / Java y no tengo en cuenta a R. A continuación se muestra un correo electrónico personal que recibí del científico de datos en jefe de una empresa que solicité a través de linkedin. X,...
He estado pensando en las redes neuronales recurrentes (RNN) y sus variedades y las redes neuronales convolucionales (CNN) y sus variedades. ¿Sería justo decir estos dos puntos: Use CNN para dividir un componente (como una imagen) en subcomponentes (como un objeto en una imagen, como el contorno...
Sabía que Residual Network (ResNet) hizo popular la inicialización normal. En ResNet, se usa la inicialización normal de He , mientras que la primera capa usa la inicialización uniforme de He. He revisado el papel de ResNet y el documento "Profundizando en los rectificadores" (papel de...
¿Cuál es el enfoque correcto y el algoritmo de agrupación para la agrupación de geolocalización? Estoy usando el siguiente código para agrupar las coordenadas de geolocalización: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates=...
Estoy trabajando en un proyecto de ciencia de datos usando Python. El proyecto tiene varias etapas. Cada etapa consiste en tomar un conjunto de datos, usar scripts de Python, datos auxiliares, configuración y parámetros, y crear otro conjunto de datos. Guardo el código en git, para que esa parte...
Cuando comencé con las redes neuronales artificiales (NN) pensé que tendría que luchar contra el sobreajuste como el principal problema. Pero en la práctica ni siquiera puedo lograr que mi NN pase la barrera de la tasa de error del 20%. ¡Ni siquiera puedo superar mi puntaje en un bosque...