Preguntas etiquetadas con classification

12

¿Por qué se usa n-gram en la identificación del lenguaje de texto en lugar de palabras?

En dos bibliotecas de identificación de idiomas populares, Compact Language Detector 2 para C ++ y el detector de idiomas para java, ambos utilizaron n-gramos (basados en caracteres) para extraer características de texto. ¿Por qué no se usa una bolsa de palabras (una sola palabra / diccionario),...

12

¿Cómo entreno HMM para la clasificación?

Así que entiendo que cuando entrenas HMM para la clasificación, el enfoque estándar es: Separe sus conjuntos de datos en los conjuntos de datos para cada clase Entrena un HMM por clase En el conjunto de prueba, compare la probabilidad de cada modelo para clasificar cada ventana Pero, ¿cómo...

classification hidden-markov-model

12

optimizando auc vs logloss en problemas de clasificación binaria

Estoy realizando una tarea de clasificación binaria donde la probabilidad de resultado es bastante baja (alrededor del 3%). Estoy tratando de decidir si optimizar por AUC o pérdida de registro. Por lo que he entendido, AUC maximiza la capacidad del modelo para discriminar entre clases mientras que...

classification binary-data auc log-loss

12

¿Cómo realizar la imputación de valores en una gran cantidad de puntos de datos?

Tengo un conjunto de datos muy grande y faltan alrededor del 5% de valores aleatorios. Estas variables están correlacionadas entre sí. El siguiente conjunto de datos R de ejemplo es solo un ejemplo de juguete con datos correlacionados ficticios. set.seed(123) # matrix of X variable xmat <-...

r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

11

El clasificador "bueno" destruyó mi curva Precision-Recall. ¿Que pasó?

Estoy trabajando con datos desequilibrados, donde hay alrededor de 40 casos de clase = 0 para cada clase = 1. Puedo discriminar razonablemente entre las clases usando características individuales, y entrenar a un ingenuo clasificador Bayes y SVM en 6 características y datos balanceados arrojaron...

classification svm roc naive-bayes precision-recall

11

Modelo de clasificación para predicción de calificación de películas

Soy un poco nuevo en la minería de datos y estoy trabajando en un modelo de clasificación para la predicción de calificación de películas. He recopilado conjuntos de datos de IMDB, y estoy planeando usar un árbol de decisión y enfoques de vecinos más cercanos para mi modelo. Me gustaría saber qué...

classification cart

11

Extender modelos de 2 clases a problemas de múltiples clases

Este documento sobre Adaboost ofrece algunas sugerencias y códigos (página 17) para extender los modelos de 2 clases a problemas de clase K. Me gustaría generalizar este código, de modo que pueda conectar fácilmente diferentes modelos de 2 clases y comparar los resultados. Debido a que la mayoría...

r machine-learning classification statistical-learning multi-class

11

Clasificador con precisión ajustable vs recuperación

Estoy trabajando en un problema de clasificación binaria en el que es mucho más importante no tener falsos positivos; bastantes falsos negativos está bien. Por ejemplo, he usado un montón de clasificadores en sklearn, pero creo que ninguno de ellos tiene la capacidad de ajustar explícitamente la...

classification precision-recall

11

¿Qué función de pérdida se debe usar para obtener un clasificador binario de alta precisión o alta recuperación?

Estoy tratando de hacer un detector de objetos que ocurren muy raramente (en imágenes), planeando usar un clasificador binario CNN aplicado en una ventana deslizante / redimensionada. He construido entrenamientos balanceados positivos y negativos 1: 1 y conjuntos de pruebas (¿es correcto hacerlo en...

logistic classification unbalanced-classes loss-functions

11

R / mgcv: ¿Por qué los productos tensoriales te () y ti () producen superficies diferentes?

El mgcvpaquete Rtiene dos funciones para ajustar las interacciones del producto tensorial: te()y ti(). Entiendo la división básica del trabajo entre los dos (ajustar una interacción no lineal versus descomponer esta interacción en efectos principales y una interacción). Lo que no entiendo es por...

r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

11

Evaluación de clasificadores: curvas de aprendizaje vs curvas ROC

Me gustaría comparar 2 clasificadores diferentes para un problema de clasificación de texto multiclase que utiliza grandes conjuntos de datos de entrenamiento. Dudo si debo usar curvas ROC o curvas de aprendizaje para comparar los 2 clasificadores. Por un lado, las curvas de aprendizaje son útiles...

machine-learning classification roc accuracy

11

Clasificador para etiquetas de clase inciertas

Digamos que tengo un conjunto de instancias con etiquetas de clase asociadas. No importa cómo se etiquetaron estas instancias, sino cuán segura es su membresía de clase. Cada instancia pertenece exactamente a una clase. Digamos que puedo cuantificar la certeza de cada membresía de clase con un...

classification weka uncertainty

11

¿Por qué Bayes Classifier es el clasificador ideal?

Se considera el caso ideal en el que la estructura de probabilidad subyacente a las categorías se conoce perfectamente. ¿Por qué con el clasificador Bayes logramos el mejor rendimiento que se puede lograr? ¿Cuál es la prueba / explicación formal de esto? Como siempre usamos el clasificador Bayes...

probability classification bayesian bayes

11

El primer componente principal no separa las clases, pero otras PC sí; ¿Cómo es eso posible?

Ejecuté PCA en 17 variables cuantitativas para obtener un conjunto más pequeño de variables, es decir, componentes principales, que se utilizarán en el aprendizaje automático supervisado para clasificar las instancias en dos clases. Después de PCA, PC1 representa el 31% de la variación en los...

machine-learning classification pca dimensionality-reduction

11

Intervalo de confianza para la precisión de clasificación con validación cruzada

Estoy trabajando en un problema de clasificación que calcula una métrica de similitud entre dos imágenes de rayos X de entrada. Si las imágenes son de la misma persona (etiqueta de "derecho"), se calculará una métrica más alta; las imágenes de entrada de dos personas diferentes (etiqueta de...

classification confidence-interval cross-validation matlab

11

Cómo elegir la probabilidad de corte para un evento raro Regresión logística

Tengo 100,000 observaciones (9 variables indicadoras ficticias) con 1000 positivos. La regresión logística debería funcionar bien en este caso, pero la probabilidad de corte me desconcierta. En la literatura común, elegimos 50% de corte para predecir 1s y 0s. No puedo hacer esto ya que mi modelo...

regression logistic classification generalized-linear-model roc

11

¿Cómo predecimos eventos raros?

Estoy trabajando en el desarrollo de un modelo predictivo de riesgo de seguro. Estos modelos son de "eventos raros" como predicción de ausencia de aerolínea, detección de fallas de hardware, etc. Mientras preparaba mi conjunto de datos, traté de aplicar la clasificación, pero no pude obtener...

classification predictive-models scikit-learn poisson-process

11

Pros de Jeffries Matusita distancia

Según algún artículo que estoy leyendo, la distancia de Jeffries y Matusita se usa comúnmente. Pero no pude encontrar mucha información al respecto, excepto la fórmula a continuación JMD (x, y) = ∑(xi−−√2−yi−−√2)2−−−−−−−−−−−−−√2∑(xi2−yi2)22\sqrt[2]{\sum(\sqrt[2]{x_i}-\sqrt[2]{y_i})^2} Es similar...

classification k-nearest-neighbour euclidean

11

High Recall: baja precisión para el conjunto de datos no balanceado

Actualmente me encuentro con algunos problemas al analizar un conjunto de datos de tweets con máquinas de vectores de soporte. El problema es que tengo un conjunto de entrenamiento de clase binaria desequilibrado (5: 2); que se espera que sea proporcional a la distribución de clase real. Al...

machine-learning classification svm unbalanced-classes precision-recall

11

umbral de cálculo para el clasificador de riesgo mínimo?

Suponga que dos clases y tienen un atributo tienen distribución y . si tenemos igual para la siguiente matriz de costos:C1C1C_1C2C2C_2xxxN(0,0.5)N(0,0.5) \cal{N} (0, 0.5)N(1,0.5)N(1,0.5) \cal{N} (1, 0.5)P(C1)=P(C2)=0.5P(C1)=P(C2)=0.5P(C_1)=P(C_2)=0.5 L=[010.50]L=[00.510]L= \begin{bmatrix} 0 & 0.5...

machine-learning classification bayesian normal-distribution bivariate