Preguntas etiquetadas con scikit-learn

16

¿Cuál es la razón detrás de tomar la transformación de registro de pocas variables continuas?

He estado haciendo un problema de clasificación y he leído el código y los tutoriales de muchas personas. Una cosa que he notado es que muchas personas toman np.logo logde variables continuas como loan_amounto applicant_incomeetc. Solo quiero entender la razón detrás de esto. ¿Ayuda a mejorar la...

16

Método de puntuación RandomForestClassifier OOB

¿La implementación aleatoria del bosque en scikit-learn utiliza la precisión media como método de puntuación para estimar el error de generalización con muestras fuera de bolsa? Esto no se menciona en la documentación, pero el método score () informa la precisión media. Tengo un conjunto de datos...

random-forest scikit-learn

16

¿En qué parte del flujo de trabajo debemos tratar los datos faltantes?

Estoy construyendo un flujo de trabajo para crear modelos de aprendizaje automático (en mi caso, usando Python pandasy sklearnpaquetes) a partir de datos extraídos de una base de datos muy grande (aquí, Vertica a través de SQL y pyodbc), y un paso crítico en ese proceso implica que faltan valores...

machine-learning python pandas scikit-learn

16

agrandar el mapa de calor marino

Creo un corr()df a partir de un df original. El corr()DF salió 70 X 70 y es imposible de visualizar el mapa de calor ... sns.heatmap(df). Si trato de mostrar corr = df.corr(), la tabla no se ajusta a la pantalla y puedo ver todas las correlaciones. ¿Es una forma de imprimir todo dfsin importar su...

visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

15

¿Cómo funciona SelectKBest?

Estoy viendo este tutorial: https://www.dataquest.io/mission/75/improving-your-submission En la sección 8, que encuentra las mejores características, muestra el siguiente código. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex",...

python scikit-learn

15

Predicción de similitud de oraciones

Estoy tratando de resolver el siguiente problema: tengo un conjunto de oraciones como mi conjunto de datos, y quiero poder escribir una nueva oración y encontrar la oración con la que la nueva es más similar en el conjunto de datos. Un ejemplo se vería así: Nueva oración: " I opened a new...

python nlp scikit-learn similarity text

14

Pandas Dataframe a DMatrix

Estoy tratando de ejecutar xgboost en scikit learn. Y solo uso Pandas para cargar datos en el marco de datos. ¿Cómo se supone que debo usar pandas df con xgboost? Estoy confundido por la rutina DMatrix requerida para ejecutar xgboost

scikit-learn pandas xgboost

12

¿Scikit-learn usa la regularización por defecto?

Acabo de ajustar una curva logística a algunos datos falsos. Hice los datos esencialmente una función de paso. data = -------------++++++++++++++ Pero cuando miro la curva ajustada, la pendiente es muy pequeña. La función que minimiza mejor la función de costo, suponiendo la entropía cruzada, es...

logistic-regression scikit-learn

12

Columnas categóricas de conversión masiva en pandas (no codificación de una sola vez)

Tengo un marco de datos de pandas con toneladas de columnas categóricas, que planeo usar en el árbol de decisiones con scikit-learn. Necesito convertirlos a valores numéricos (no uno vectores calientes). Puedo hacerlo con LabelEncoder de scikit-learn. El problema es que hay demasiados y no quiero...

scikit-learn pandas categorical-data labels

12

¿Cuándo usar Standard Scaler y cuándo Normalizer?

Entiendo lo que hace Standard Scalar y lo que hace Normalizer, según la documentación de scikit: Normalizer , Standard Scaler . Sé cuándo se aplica el Escalador estándar. ¿Pero en qué escenario se aplica Normalizer? ¿Hay escenarios en los que se prefiere uno sobre el

python scikit-learn data-cleaning normalization

12

¿Cuántas celdas LSTM debo usar?

¿Existen reglas generales (o reglas reales) relacionadas con la cantidad mínima, máxima y "razonable" de celdas LSTM que debo usar? Específicamente me relaciono con BasicLSTMCell de TensorFlow y la num_unitspropiedad. Suponga que tengo un problema de clasificación definido por: t - number of time...

rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

12

Selección de características mediante la importación de características en bosques aleatorios con scikit-learn

He trazado las características importantes en bosques aleatorios con scikit-learn . Para mejorar la predicción utilizando bosques aleatorios, ¿cómo puedo usar la información de la parcela para eliminar características? Es decir, ¿cómo detectar si una característica es inútil o incluso peor, la...

feature-selection random-forest scikit-learn

12

Importancia de la característica con características categóricas de alta cardinalidad para la regresión (variable de representación numérica)

Intenté usar las características de las características de los bosques aleatorios para realizar una selección empírica de características para un problema de regresión donde todas las características son categóricas y muchas de ellas tienen muchos niveles (del orden de 100-1000). Dado que la...

scikit-learn feature-selection random-forest xgboost categorical-data

12

Reducción eficiente de dimensionalidad para grandes conjuntos de datos

Tengo un conjunto de datos con ~ 1M filas y ~ 500K características dispersas. Quiero reducir la dimensionalidad a algún lugar del orden de las características densas 1K-5K. sklearn.decomposition.PCAno funciona en datos dispersos, y he intentado usarlos, sklearn.decomposition.TruncatedSVDpero...

python scikit-learn dimensionality-reduction

11

¿Cómo usar Scikit-Learn Label Propagation en datos estructurados de gráficos?

Como parte de mi investigación, estoy interesado en realizar la propagación de etiquetas en un gráfico. Estoy especialmente interesado en esos dos métodos: Xiaojin Zhu y Zoubin Ghahramani. Aprendizaje de datos etiquetados y no etiquetados con propagación de etiquetas Informe técnico...

scikit-learn graphs

11

parámetro scikit-learn n_jobs sobre uso de CPU y memoria

En la mayoría de los estimadores en scikit-learn, hay un n_jobsparámetro en fit/ predictmétodos para crear trabajos paralelos utilizando joblib. Noté que configurarlo -1crea solo 1 proceso de Python y maximiza los núcleos, lo que hace que el uso de la CPU alcance el 2500% en la parte superior. Esto...

python scikit-learn

11

¿Hay algún buen modelo de lenguaje listo para usar para Python?

Estoy creando prototipos de una aplicación y necesito un modelo de lenguaje para calcular la perplejidad en algunas oraciones generadas. ¿Hay algún modelo de lenguaje entrenado en Python que pueda usar fácilmente? Algo simple como model = LanguageModel('en') p1 = model.perplexity('This is a well...

python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

11

¿Cuál es la diferencia entre un vectorizador hash y un vectorizador tfidf

Estoy convirtiendo un corpus de documentos de texto en vectores de palabras para cada documento. He intentado esto usando un TfidfVectorizer y un HashingVectorizer Entiendo que a HashingVectorizerno toma en cuenta los IDFpuntajes como lo TfidfVectorizerhace. La razón por la que todavía estoy...

nlp scikit-learn text-mining tfidf

10

Predecir el mejor momento de la llamada

Tengo un conjunto de datos que incluye un conjunto de clientes en diferentes ciudades de California, la hora de llamar a cada cliente y el estado de la llamada (Verdadero si el cliente responde la llamada y Falso si el cliente no responde). Tengo que encontrar un momento adecuado para llamar a...

machine-learning classification regression scikit-learn

10

¿Cómo codificar una clase con 24,000 categorías?

Actualmente estoy trabajando en un modelo de regresión logística para genómica. Uno de los campos de entrada que quiero incluir como covariable es genes. Hay alrededor de 24,000 genes conocidos. Hay muchas características con este nivel de variabilidad en biología computacional y se necesitan...

machine-learning keras scikit-learn