Ciencia de los datos

11

Comportamiento extraño con Adam Optimizer cuando se entrena durante demasiado tiempo

Estoy tratando de entrenar un solo perceptrón (1000 unidades de entrada, 1 salida, sin capas ocultas) en 64 puntos de datos generados aleatoriamente. Estoy usando Pytorch usando el optimizador Adam: import torch from torch.autograd import Variable torch.manual_seed(545345) N, D_in, D_out = 64,...

perceptron pytorch

11

¿Cuándo decimos que el conjunto de datos no es clasificable?

Muchas veces he analizado un conjunto de datos en el que realmente no podría hacer ningún tipo de clasificación. Para ver si puedo obtener un clasificador, generalmente he usado los siguientes pasos: Genere diagramas de caja de etiqueta contra valores numéricos. Reduce la dimensionalidad a 2 o 3...

machine-learning classification deep-learning class-imbalance bayes-error

11

¿Qué es LSTM, BiLSTM y cuándo usarlos?

Soy muy nuevo en el aprendizaje profundo y estoy particularmente interesado en saber qué son LSTM y BiLSTM y cuándo usarlos (áreas principales de aplicación). ¿Por qué LSTM y BILSTM son más populares que RNN? ¿Podemos usar estas arquitecturas de aprendizaje profundo en problemas no...

machine-learning deep-learning rnn lstm

11

Encuentre P (X | Y) óptimo dado que tengo un modelo que tiene un buen rendimiento cuando se entrena en P (Y | X)

Datos de entrada: -> características de la camiseta (color, logotipo, etc.)XXX -> margen de beneficioYYY He entrenado un bosque aleatorio en los e Y anteriores y he logrado una precisión razonable en los datos de una prueba. Así que tengoXXXYYY .PAG( YEl | X)P(Y|X)P(Y|X) Ahora, me...

machine-learning random-forest generative-models

11

¿Cómo puedo ajustar los tipos de datos categóricos para la clasificación aleatoria de bosques?

Necesito encontrar la precisión de un conjunto de datos de entrenamiento mediante la aplicación de Algoritmo de bosque aleatorio. Pero mi tipo de conjunto de datos es categórico y numérico. Cuando intenté ajustar esos datos, recibí un error. 'La entrada contiene NaN, infinito o un valor...

python data-mining random-forest

11

Opciones de manejo de características categóricas de Catboost (configuración de CTR)

Estoy trabajando con un conjunto de datos con una gran cantidad de características categóricas (> 80%) que predicen una variable objetivo continua (es decir, Regresión). He estado leyendo bastante sobre formas de manejar características categóricas. Y aprendí que la codificación única que he...

machine-learning decision-trees categorical-data

11

¿Es una precisión del modelo del 100% en el sobreajuste de datos fuera de la muestra?

Acabo de completar el aprendizaje automático para el curso R en cognitivoclass.ai y he comenzado a experimentar con bosques aleatorios. He hecho un modelo usando la biblioteca "randomForest" en R. El modelo se clasifica por dos clases, bueno y malo. Sé que cuando un modelo está sobreajustado,...

r random-forest prediction overfitting

11

Redes neuronales - Encuentra la mayoría de las imágenes similares

Estoy trabajando con Python, scikit-learn y keras. Tengo 3000 mil imágenes de relojes frontales como los siguientes: Watch_1 , Watch_2 , Watch_3 . Quiero escribir un programa que reciba como entrada una foto de un reloj real que tal vez se haya tomado en condiciones menos ideales que las fotos de...

python neural-network keras

11

Usando un clasificador CNN previamente entrenado y aplíquelo en un conjunto de datos de imagen diferente

¿Cómo optimizaría un pre-entrenado neural network para aplicarlo a un problema separado? ¿Agregaría más capas al modelo previamente entrenado y lo probaría en su conjunto de datos? Por ejemplo, si la tarea fuera utilizar una CNN para clasificar grupos de fondos de pantalla , estoy seguro de que no...

neural-network deep-learning classification convnet

11

Precisión del tren vs Precisión de prueba vs matriz de confusión

Después de desarrollar mi modelo predictivo utilizando Random Forest, obtengo las siguientes métricas: Train Accuracy :: 0.9764634601043997 Test Accuracy :: 0.7933284397683713 Confusion matrix [[28292 1474] [ 6128 889]] Estos son los resultados de este código: training_features,...

python predictive-modeling accuracy confusion-matrix classifier

11

¿Cómo predecir los valores futuros del horizonte temporal con Keras?

Acabo de construir esta red neuronal LSTM con Keras import numpy as np import pandas as pd from sklearn import preprocessing from keras.layers.core import Dense, Dropout, Activation from keras.activations import linear from keras.layers.recurrent import LSTM from keras.models import...

machine-learning python keras prediction forecasting

11

Las diferencias entre SVM y regresión logística

Estoy leyendo SVMy me he enfrentado al punto de que los no kernelized SVMsno son más que separadores lineales. Por lo tanto, ¿es la única diferencia entre una SVMregresión logística y el criterio para elegir el límite? Aparentemente, SVMelige el clasificador de margen máximo y la regresión...

machine-learning classification svm logistic-regression generalization

11

parámetro scikit-learn n_jobs sobre uso de CPU y memoria

En la mayoría de los estimadores en scikit-learn, hay un n_jobsparámetro en fit/ predictmétodos para crear trabajos paralelos utilizando joblib. Noté que configurarlo -1crea solo 1 proceso de Python y maximiza los núcleos, lo que hace que el uso de la CPU alcance el 2500% en la parte superior. Esto...

python scikit-learn

11

Cuándo eliminar variables correlacionadas

¿Alguien puede sugerir cuál es la etapa correcta para eliminar las variables correlacionadas antes de la ingeniería de características o después de la ingeniería de

machine-learning feature-selection data-science-model

11

¿Abandono en qué capas de LSTM?

Usando una capa múltiple LSTMcon caída, ¿es aconsejable colocar la caída en todas las capas ocultas, así como en las capas densas de salida? En el artículo de Hinton (que proponía Dropout) solo puso Dropout en las capas densas, pero eso fue porque las capas internas ocultas eran...

neural-network lstm rnn dropout stacked-lstm

11

¿Hay algún buen modelo de lenguaje listo para usar para Python?

Estoy creando prototipos de una aplicación y necesito un modelo de lenguaje para calcular la perplejidad en algunas oraciones generadas. ¿Hay algún modelo de lenguaje entrenado en Python que pueda usar fácilmente? Algo simple como model = LanguageModel('en') p1 = model.perplexity('This is a well...

python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

11

¿Cómo usar Scikit-Learn Label Propagation en datos estructurados de gráficos?

Como parte de mi investigación, estoy interesado en realizar la propagación de etiquetas en un gráfico. Estoy especialmente interesado en esos dos métodos: Xiaojin Zhu y Zoubin Ghahramani. Aprendizaje de datos etiquetados y no etiquetados con propagación de etiquetas Informe técnico...

scikit-learn graphs

11

¿Cómo funcionará el principio Razor de Occam en el aprendizaje automático?

La siguiente pregunta que se muestra en la imagen se hizo durante uno de los exámenes recientemente. No estoy seguro de haber entendido correctamente el principio de Navaja de Occam o no. De acuerdo con las distribuciones y los límites de decisión dados en la pregunta y siguiendo la Navaja de...

machine-learning classification

10

Agrupación de datos de clientes almacenados en ElasticSearch

Tengo un montón de perfiles de clientes almacenados en un clúster de Elasticsearch . Estos perfiles ahora se utilizan para la creación de grupos objetivo para nuestras suscripciones de correo electrónico. Los grupos objetivo ahora se forman manualmente usando las capacidades de búsqueda facetada...

data-mining clustering

10

¿Cuáles son las restricciones de memoria de R?

Al revisar el " Modelo predictivo aplicado ", un revisor declara : Una crítica que tengo de la pedagogía del aprendizaje estadístico (SL) es la ausencia de consideraciones de rendimiento de cómputo en la evaluación de diferentes técnicas de modelado. Con su énfasis en bootstrapping y validación...

apache-hadoop r