Preguntas etiquetadas con classification

51

¿Por qué no abordar la clasificación a través de la regresión?

Algunos materiales que he visto sobre el aprendizaje automático dicen que es una mala idea abordar un problema de clasificación a través de la regresión. Pero creo que siempre es posible hacer una regresión continua para ajustar los datos y truncar la predicción continua para obtener...

regression machine-learning classification

49

Umbral de probabilidad de clasificación

Tengo una pregunta sobre la clasificación en general. Supongamos que f es un clasificador, que genera un conjunto de probabilidades dados algunos datos D. Normalmente, uno diría: bueno, si P (c | D)> 0.5, asignaremos una clase 1, de lo contrario 0 (deje que esto sea un binario...

machine-learning classification binary-data threshold

49

¿Por qué la regresión logística es un clasificador lineal?

Dado que estamos utilizando la función logística para transformar una combinación lineal de la entrada en una salida no lineal, ¿cómo se puede considerar la regresión logística como un clasificador lineal? La regresión lineal es como una red neuronal sin la capa oculta, entonces, ¿por qué las...

logistic classification neural-networks

45

Kernel lineal y kernel no lineal para máquina de vectores de soporte?

Cuando se utiliza la máquina de vectores de soporte, ¿existen pautas para elegir un núcleo lineal frente a un núcleo no lineal, como RBF? Una vez escuché que el kernel no lineal tiende a no funcionar bien una vez que el número de características es grande. ¿Hay alguna referencia sobre este...

machine-learning classification svm references kernel-trick

43

Características para la clasificación de series temporales

Considero el problema de la clasificación (multiclase) basada en series de tiempo de longitud variable TTT , es decir, encontrar una función f(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(X_T) = y \in [1..K]\\ \text{for } X_T = (x_1, \dots, x_T)\\ \text{with...

time-series classification feature-selection signal-processing

43

Suposiciones aleatorias del bosque

Soy un poco nuevo en el bosque aleatorio, así que todavía estoy luchando con algunos conceptos básicos. En regresión lineal, asumimos observaciones independientes, varianza constante ... ¿Cuáles son los supuestos básicos / hipótesis que hacemos cuando usamos bosque aleatorio? ¿Cuáles son las...

regression classification random-forest

43

Entrenamiento de un árbol de decisión contra datos no balanceados

Soy nuevo en la minería de datos y estoy tratando de entrenar un árbol de decisión contra un conjunto de datos que está altamente desequilibrado. Sin embargo, estoy teniendo problemas con poca precisión predictiva. Los datos consisten en estudiantes que estudian cursos, y la variable de clase es...

classification cart unbalanced-classes accuracy

42

¿Por qué disminuir la muestra?

Supongamos que quiero aprender un clasificador que predice si un correo electrónico es spam. Y supongamos que solo el 1% de los correos electrónicos son spam. Lo más fácil sería aprender el clasificador trivial que dice que ninguno de los correos electrónicos son spam. Este clasificador nos daría...

machine-learning classification

41

¿Cómo interpretar los valores de la medida F?

Me gustaría saber cómo interpretar una diferencia de valores de medida f. Sé que la medida f es una media equilibrada entre precisión y recuperación, pero estoy preguntando sobre el significado práctico de una diferencia en las medidas F. Por ejemplo, si un clasificador C1 tiene una precisión de...

classification precision-recall

38

ImageNet: ¿cuál es la tasa de error top-1 y top-5?

En los documentos de clasificación de ImageNet, las tasas de error top-1 y top-5 son unidades importantes para medir el éxito de algunas soluciones, pero ¿cuáles son esas tasas de error? En la clasificación de ImageNet con redes neuronales convolucionales profundas por Krizhevsky et al. todas las...

classification neural-networks error measurement-error image-processing

38

¿Por qué los ingenuos clasificadores bayesianos funcionan tan bien?

Los clasificadores ingenuos de Bayes son una opción popular para los problemas de clasificación. Hay muchas razones para esto, que incluyen: "Zeitgeist": conciencia generalizada después del éxito de los filtros de spam hace aproximadamente diez años Fácil de escribir El modelo clasificador es...

classification naive-bayes

38

Aplique incrustaciones de palabras en todo el documento para obtener un vector de características

¿Cómo uso una incrustación de palabras para asignar un documento a un vector de características, adecuado para su uso con aprendizaje supervisado? Una incrustación de palabras asigna cada palabra www a un vector , donde es un número no demasiado grande (por ejemplo, 500). Las incrustaciones de...

classification natural-language supervised-learning word2vec word-embeddings

37

SVM, sobreajuste, maldición de dimensionalidad

Mi conjunto de datos es pequeño (120 muestras), sin embargo, el número de características es grande varía de (1000-200,000). Aunque estoy haciendo una selección de características para elegir un subconjunto de características, aún podría sobreajustar. Mi primera pregunta es, ¿cómo maneja SVM el...

classification svm

37

Mejora la clasificación con muchas variables categóricas

Estoy trabajando en un conjunto de datos con más de 200,000 muestras y aproximadamente 50 características por muestra: 10 variables continuas y las otras ~ 40 son variables categóricas (países, idiomas, campos científicos, etc.). Para estas variables categóricas, tiene por ejemplo 150 países...

machine-learning classification categorical-data random-forest many-categories

36

Regresión logística vs. LDA como clasificadores de dos clases

Estoy tratando de entender la diferencia estadística entre el análisis discriminante lineal y la regresión logística . Tengo entendido que, para un problema de clasificación de dos clases , LDA predice dos funciones de densidad normal (una para cada clase) que crean un límite lineal donde se...

regression logistic classification discriminant-analysis

35

PCA y la división tren / prueba

Tengo un conjunto de datos para el que tengo múltiples conjuntos de etiquetas binarias. Para cada conjunto de etiquetas, entreno a un clasificador, evaluándolo por validación cruzada. Quiero reducir la dimensionalidad utilizando el análisis de componentes principales (PCA). Mi pregunta es: ¿Es...

machine-learning classification pca cross-validation

35

Conjunto de datos libre para clasificación dimensional muy alta [cerrado]

¿Cuáles son los conjuntos de datos disponibles gratuitamente para la clasificación con más de 1000 características (o puntos de muestra si contiene curvas)? Ya existe un wiki comunitario sobre conjuntos de datos gratuitos: ubicación de muestras de datos disponibles gratuitamente Pero aquí, sería...

machine-learning classification dataset large-data

35

¿Cómo interpretar OOB y la matriz de confusión para bosque aleatorio?

Recibí un script R de alguien para ejecutar un modelo de bosque aleatorio. Lo modifiqué y lo ejecuté con algunos datos de empleados. Estamos tratando de predecir separaciones voluntarias. Aquí hay información adicional: este es un modelo de clasificación donde 0 = empleado suspendido, 1 = empleado...

r classification error random-forest

34

¿Por qué hay una diferencia entre calcular manualmente un intervalo de confianza del 95% de regresión logística y usar la función confint () en R?

Queridos todos, he notado algo extraño que no puedo explicar, ¿verdad? En resumen: el enfoque manual para calcular un intervalo de confianza en un modelo de regresión logística y la función R confint()dan resultados diferentes. He estado pasando por la regresión logística aplicada de Hosmer &...

r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

34

Cómo interpretar la disminución media de precisión y la disminución media de GINI en modelos de bosque aleatorio

Tengo algunas dificultades para comprender cómo interpretar la salida de importancia variable del paquete Random Forest. La disminución media en la precisión generalmente se describe como "la disminución en la precisión del modelo al permutar los valores en cada característica". ¿Es esta una...

r machine-learning classification random-forest