Ciencia de los datos

13

¿Qué es una capa convolucional 1D en aprendizaje profundo?

Tengo una buena comprensión general del papel y el mecanismo de las capas convolucionales en Deep Learning para el procesamiento de imágenes en caso de implementaciones 2D o 3D: "simplemente" intentan capturar patrones 2D en imágenes (en 3 canales en caso de 3D). Pero recientemente me topé con...

deep-learning nlp convolution

13

XGBRegressor vs xgboost.train gran diferencia de velocidad?

Si entreno a mi modelo con el siguiente código: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix...

machine-learning python decision-trees xgboost efficiency

13

¿Cómo se debe inicializar y regularizar el sesgo?

He leído un par de documentos sobre la inicialización del núcleo y muchos documentos mencionan que usan la regularización L2 del núcleo (a menudo con ).λ=0.0001λ=0.0001\lambda = 0.0001 ¿Alguien hace algo diferente a inicializar el sesgo con cero constante y no regularizarlo? Papeles de...

neural-network

13

¿Las redes neuronales tienen explicabilidad como los árboles de decisión?

En árboles de decisión, podemos entender el resultado de la estructura de árbol y también podemos visualizar cómo el árbol de decisión toma decisiones. Por lo tanto, los árboles de decisión tienen explicabilidad (su salida se puede explicar fácilmente). ¿Tenemos explicabilidad en redes neuronales...

neural-network

13

Olvídese de la capa en una red neuronal recurrente (RNN) -

Estoy tratando de averiguar las dimensiones de cada variable en un RNN en la capa de olvido, sin embargo, no estoy seguro de si estoy en el camino correcto. La siguiente imagen y ecuación es de la publicación del blog de Colah "Comprender las redes LSTM" : dónde: es entrada de tamaño m * 1...

neural-network rnn

13

Ventajas del marco de datos de pandas para la base de datos relacional regular

En Data Science, muchos parecen estar usando marcos de datos de pandas como el almacén de datos. ¿Cuáles son las características de los pandas que lo convierten en un almacén de datos superior en comparación con las bases de datos relacionales normales como MySQL , que se utilizan para almacenar...

pandas databases

13

¿Por qué debería elegirse la inicialización de pesos y sesgos alrededor de 0?

Leo esto: Para entrenar nuestra red neuronal, inicializaremos cada parámetro W (l) ijWij (l) y cada b (l) ibi (l) a un pequeño valor aleatorio cercano a cero (digamos de acuerdo con Normal (0, ϵ2) Normal (0 , ϵ2) distribución para algunos pequeños ϵϵ, digamos 0.01) de los tutoriales de...

deep-learning stanford-nlp randomized-algorithms

13

Por qué las convoluciones siempre usan números impares como filter_size

Si echamos un vistazo al 90-99% de los artículos publicados usando una CNN (ConvNet). La gran mayoría de ellos usa el tamaño de filtro de números impares : {1, 3, 5, 7} para los más utilizados. Esta situación puede generar algún problema: con estos tamaños de filtro, generalmente la operación de...

deep-learning convnet computer-vision convolution

13

Cuántas características para muestrear usando bosques aleatorios

La página de Wikipedia que cita "Los elementos del aprendizaje estadístico" dice: Por lo general, para un problema de clasificación con características , ⌊ √pagpagp características p ⌋se utilizan en cada división.⌊ p-√⌋⌊pag⌋\lfloor \sqrt{p}\rfloor Entiendo que esta es una conjetura bastante...

statistics random-forest optimization evaluation sampling

13

¿Por qué los codificadores automáticos para reducción de dimensiones son simétricos?

No soy un experto en autoencoders o redes neuronales de ninguna manera, así que perdóname si esta es una pregunta tonta. Con el fin de reducir la dimensión o visualizar grupos en datos de alta dimensión, podemos usar un autoencoder para crear una representación bidimensional (con pérdida) al...

neural-network dimensionality-reduction autoencoder

13

¿Qué son las incrustaciones de gráficos?

Recientemente me encontré con la incrustación de gráficos como DeepWalk y LINE. Sin embargo, todavía no tengo una idea clara de lo que se entiende por incrustaciones de gráficos y cuándo usarlo (aplicaciones). Cualquier sugerencia es

graphs

13

Intervalo de predicción alrededor del pronóstico de series de tiempo LSTM

¿Existe algún método para calcular el intervalo de predicción (distribución de probabilidad) alrededor de un pronóstico de serie temporal de una red neuronal LSTM (u otra red recurrente)? Digamos, por ejemplo, que pronostico 10 muestras en el futuro (t + 1 a t + 10), con base en las últimas 10...

machine-learning deep-learning time-series prediction lstm

13

¿Una alternativa de codificación activa para grandes valores categóricos?

Hola, tengo un marco de datos con grandes valores categóricos en más de 1600 categorías. ¿Hay alguna forma de encontrar alternativas para no tener más de 1600 columnas? Encontré esto debajo del enlace interesante http://amunategui.github.io/feature-hashing/#sourcecode Pero se están convirtiendo a...

machine-learning dataset dimensionality-reduction encoding

13

Actualización de los pesos de los filtros en una CNN

Actualmente estoy tratando de entender la arquitectura de una CNN. Entiendo la convolución, la capa ReLU, la capa de agrupación y la capa totalmente conectada. Sin embargo, todavía estoy confundido acerca de los pesos. En una red neuronal normal, cada neurona tiene su propio peso. En la capa...

machine-learning neural-network deep-learning image-classification cnn

13

¿Cómo implementar la predicción de secuencia "uno a muchos" y "muchos a muchos" en Keras?

Me cuesta interpretar la diferencia de codificación Keras para el etiquetado de secuencia de uno a muchos (por ejemplo, clasificación de imágenes individuales) y de muchos a muchos (por ejemplo, clasificación de secuencias de imágenes). Frecuentemente veo dos tipos diferentes de códigos: El tipo 1...

keras rnn lstm sequence

13

¿Qué significa cuando decimos que la mayoría de los puntos en un hipercubo están en el límite?

Si tengo un hipercubo de 50 dimensiones. Y defino su límite por o donde es la dimensión del hipercubo. Luego, calcular la proporción de puntos en el límite del hipercubo será . Qué significa eso? ¿Significa que el resto del espacio está vacío? Si el de los puntos están en el límite, entonces los...

machine-learning math

13

¿Cómo se aplica SMOTE en la clasificación de texto?

La técnica de sobremuestreo de minorías sintéticas (SMOTE) es una técnica de sobremuestreo utilizada en un problema de conjunto de datos desequilibrado. Hasta ahora tengo una idea de cómo aplicarlo en datos genéricos y estructurados. ¿Pero es posible aplicarlo en un problema de clasificación de...

unbalanced-classes text smote

13

Diferente conjunto de pruebas y distribución de conjuntos de entrenamiento

Estoy trabajando en una competencia de ciencia de datos para la cual la distribución de mi conjunto de pruebas es diferente del conjunto de entrenamiento. Quiero submuestrear observaciones del conjunto de entrenamiento que se parece mucho al conjunto de prueba. ¿Cómo puedo hacer...

preprocessing

13

¿Por qué agregar una capa de abandono mejora el rendimiento del aprendizaje profundo / automático, dado que el abandono suprime algunas neuronas del modelo?

Si eliminar algunas neuronas da como resultado un modelo de mejor rendimiento, ¿por qué no utilizar una red neuronal más simple con menos capas y menos neuronas en primer lugar? ¿Por qué construir un modelo más grande y complicado al principio y suprimir partes de él más

machine-learning deep-learning keras regularization dropout

13

¿Cuál es la diferencia entre el muestreo ascendente y el muestreo bi-lineal en una CNN?

Estoy tratando de entender este artículo y no estoy seguro de qué es el muestreo bi-lineal. ¿Alguien puede explicar esto a un alto

deep-learning convnet cnn convolution