Preguntas etiquetadas con classification

228

¿Qué significa AUC y qué es?

Busqué por todos lados y no he podido averiguar qué significan o significan las AUC, en relación con la

136

Elección de K en validación cruzada K-fold

He estado usando el -fold validación cruzada varias veces para evaluar el rendimiento de algunos algoritmos de aprendizaje, pero siempre he estado intrigados por la forma en que debería elegir el valor de .KKKKKKK A menudo he visto y usado un valor de , pero esto me parece totalmente arbitrario, y...

machine-learning classification cross-validation

131

Kappa de Cohen en inglés simple

Estoy leyendo un libro de minería de datos y menciona la estadística Kappa como un medio para evaluar el rendimiento de predicción de los clasificadores. Sin embargo, simplemente no puedo entender esto. También revisé Wikipedia, pero tampoco me ayudó: https://en.wikipedia.org/wiki/Cohen's_kappa...

classification data-mining cohens-kappa

107

¿Por qué la precisión no es la mejor medida para evaluar los modelos de clasificación?

Esta es una pregunta general que se hizo indirectamente varias veces aquí, pero carece de una única respuesta autorizada. Sería genial tener una respuesta detallada a esto para la referencia. La precisión , la proporción de clasificaciones correctas entre todas las clasificaciones, es una medida...

machine-learning classification accuracy model-evaluation scoring-rules

92

¿Cómo se calcula la precisión y la recuperación para la clasificación multiclase utilizando la matriz de confusión?

Me pregunto cómo calcular la precisión y la recuperación utilizando una matriz de confusión para un problema de clasificación de varias clases. Específicamente, una observación solo se puede asignar a su clase / etiqueta más probable. Me gustaría calcular: Precisión = TP / (TP + FP) Recuperación...

machine-learning classification precision-recall multi-class

78

Cómo calcular el área bajo la curva (AUC), o la estadística c, a mano

Estoy interesado en calcular el área bajo la curva (AUC), o la estadística c, a mano para un modelo de regresión logística binaria. Por ejemplo, en el conjunto de datos de validación, tengo el valor verdadero para la variable dependiente, retención (1 = retenido; 0 = no retenido), así como un...

regression logistic classification roc auc

77

¿Cómo producir una bonita gráfica de los resultados del análisis de conglomerados k-means?

Estoy usando R para hacer clustering K-means. Estoy usando 14 variables para ejecutar K-means ¿Cuál es una manera bonita de trazar los resultados de K-means? ¿Hay implementaciones existentes? ¿Tener 14 variables complica el trazado de los resultados? Encontré algo llamado GGcluster que se ve...

data-visualization classification k-means unsupervised-learning

76

Ayúdame a entender las máquinas de vectores de soporte

Entiendo los conceptos básicos de cuál es el objetivo de Support Vector Machines en términos de clasificar un conjunto de entrada en varias clases diferentes, pero lo que no entiendo son algunos de los detalles esenciales. Para empezar, estoy un poco confundido por el uso de Slack Variables. ¿Cuál...

machine-learning classification svm

76

Selección de características para el modelo "final" cuando se realiza la validación cruzada en el aprendizaje automático

Estoy un poco confundido acerca de la selección de funciones y el aprendizaje automático y me preguntaba si podrían ayudarme. Tengo un conjunto de datos de microarrays que se clasifica en dos grupos y tiene miles de características. Mi objetivo es obtener una pequeña cantidad de genes (mis...

machine-learning classification cross-validation feature-selection genetics

75

¿Por qué la regresión logística no se llama clasificación logística?

Dado que la Regresión logística es un modelo de clasificación estadística que trata con variables dependientes categóricas, ¿por qué no se llama Clasificación logística ? ¿No debería reservarse el nombre de "Regresión" a los modelos que manejan variables dependientes

regression machine-learning logistic classification terminology

75

¿La mejor manera de presentar un bosque aleatorio en una publicación?

Estoy usando el algoritmo de bosque aleatorio como un clasificador robusto de dos grupos en un estudio de microarrays con miles de características. ¿Cuál es la mejor manera de presentar el bosque aleatorio para que haya suficiente información para que sea reproducible en un documento? ¿Existe un...

r machine-learning classification random-forest microarray

73

¿Por qué las redes neuronales se vuelven más profundas, pero no más anchas?

En los últimos años, las redes neuronales convolucionales (o quizás redes neuronales profundas en general) se han vuelto cada vez más profundas, con redes de vanguardia que van de 7 capas ( AlexNet ) a 1000 capas ( Redes residuales) en el espacio de 4 años. La razón detrás del aumento en el...

machine-learning classification neural-networks deep-learning conv-neural-network

72

¿Cómo calcular la precisión / recuperación para la clasificación multiclase-multilabel?

Me pregunto cómo calcular las medidas de precisión y recuperación para la clasificación multiclase multicabel, es decir, la clasificación donde hay más de dos etiquetas y cada instancia puede tener varias

machine-learning classification precision-recall multi-class

66

¿Cómo trazar curvas ROC en clasificación multiclase?

En otras palabras, en lugar de tener un problema de dos clases, estoy lidiando con 4 clases y todavía me gustaría evaluar el rendimiento utilizando

classification roc

63

¿Función Softmax vs Sigmoid en clasificador logístico?

¿Qué decide la elección de la función (Softmax vs Sigmoid) en un clasificador logístico? Supongamos que hay 4 clases de salida. Cada una de las funciones anteriores da las probabilidades de que cada clase sea la salida correcta. Entonces, ¿cuál tomar para un

machine-learning logistic classification softmax

60

¿Cómo puedo ayudar a asegurar que los datos de prueba no se filtren en los datos de entrenamiento?

Supongamos que tenemos a alguien construyendo un modelo predictivo, pero que alguien no está necesariamente versado en los principios estadísticos o de aprendizaje automático adecuados. Tal vez estamos ayudando a esa persona mientras está aprendiendo, o tal vez esa persona está utilizando algún...

machine-learning classification predictive-models cross-validation out-of-sample

55

Alternativas a la regresión logística en R

Me gustaría tener tantos algoritmos que realicen la misma tarea que la regresión logística. Es decir, algoritmos / modelos que pueden dar una predicción a una respuesta binaria (Y) con alguna variable explicativa (X). Me alegraría que después de nombrar el algoritmo, si también mostrara cómo...

r regression logistic classification predictive-models

53

¿Cuándo los datos no balanceados son realmente un problema en Machine Learning?

Ya teníamos varias preguntas sobre datos desequilibrados al usar regresión logística , SVM , árboles de decisión , embolsado y una serie de otras preguntas similares, ¡lo que lo convierte en un tema muy popular! Desafortunadamente, cada una de las preguntas parece ser específica del algoritmo y no...

machine-learning classification predictive-models unbalanced-classes

52

Clasificación binaria con clases fuertemente desequilibradas.

Tengo un conjunto de datos en forma de (características, salida binaria 0 o 1), pero 1 ocurre muy raramente, por lo que al predecir siempre 0, obtengo una precisión entre 70% y 90% (dependiendo de los datos particulares que mire) ) Los métodos de ML me dan la misma precisión, y creo que debería...

machine-learning classification binary-data unbalanced-classes

52

¿Cuál es la diferencia entre Multiclass y Multilabel Problem?

¿Cuál es la diferencia entre un problema multiclase y un problema

classification clustering terminology multi-class multilabel