Busqué por todos lados y no he podido averiguar qué significan o significan las AUC, en relación con la
La clasificación estadística es el problema de identificar la subpoblación a la que pertenecen las nuevas observaciones, donde se desconoce la identidad de la subpoblación, sobre la base de un conjunto de entrenamiento de datos que contienen observaciones cuya subpoblación es conocida. Por lo tanto, estas clasificaciones mostrarán un comportamiento variable que puede ser estudiado por las estadísticas.
Busqué por todos lados y no he podido averiguar qué significan o significan las AUC, en relación con la
He estado usando el -fold validación cruzada varias veces para evaluar el rendimiento de algunos algoritmos de aprendizaje, pero siempre he estado intrigados por la forma en que debería elegir el valor de .KKKKKKK A menudo he visto y usado un valor de , pero esto me parece totalmente arbitrario, y...
Estoy leyendo un libro de minería de datos y menciona la estadística Kappa como un medio para evaluar el rendimiento de predicción de los clasificadores. Sin embargo, simplemente no puedo entender esto. También revisé Wikipedia, pero tampoco me ayudó: https://en.wikipedia.org/wiki/Cohen's_kappa...
Esta es una pregunta general que se hizo indirectamente varias veces aquí, pero carece de una única respuesta autorizada. Sería genial tener una respuesta detallada a esto para la referencia. La precisión , la proporción de clasificaciones correctas entre todas las clasificaciones, es una medida...
Me pregunto cómo calcular la precisión y la recuperación utilizando una matriz de confusión para un problema de clasificación de varias clases. Específicamente, una observación solo se puede asignar a su clase / etiqueta más probable. Me gustaría calcular: Precisión = TP / (TP + FP) Recuperación...
Estoy interesado en calcular el área bajo la curva (AUC), o la estadística c, a mano para un modelo de regresión logística binaria. Por ejemplo, en el conjunto de datos de validación, tengo el valor verdadero para la variable dependiente, retención (1 = retenido; 0 = no retenido), así como un...
Estoy usando R para hacer clustering K-means. Estoy usando 14 variables para ejecutar K-means ¿Cuál es una manera bonita de trazar los resultados de K-means? ¿Hay implementaciones existentes? ¿Tener 14 variables complica el trazado de los resultados? Encontré algo llamado GGcluster que se ve...
Entiendo los conceptos básicos de cuál es el objetivo de Support Vector Machines en términos de clasificar un conjunto de entrada en varias clases diferentes, pero lo que no entiendo son algunos de los detalles esenciales. Para empezar, estoy un poco confundido por el uso de Slack Variables. ¿Cuál...
Estoy un poco confundido acerca de la selección de funciones y el aprendizaje automático y me preguntaba si podrían ayudarme. Tengo un conjunto de datos de microarrays que se clasifica en dos grupos y tiene miles de características. Mi objetivo es obtener una pequeña cantidad de genes (mis...
Dado que la Regresión logística es un modelo de clasificación estadística que trata con variables dependientes categóricas, ¿por qué no se llama Clasificación logística ? ¿No debería reservarse el nombre de "Regresión" a los modelos que manejan variables dependientes
Estoy usando el algoritmo de bosque aleatorio como un clasificador robusto de dos grupos en un estudio de microarrays con miles de características. ¿Cuál es la mejor manera de presentar el bosque aleatorio para que haya suficiente información para que sea reproducible en un documento? ¿Existe un...
En los últimos años, las redes neuronales convolucionales (o quizás redes neuronales profundas en general) se han vuelto cada vez más profundas, con redes de vanguardia que van de 7 capas ( AlexNet ) a 1000 capas ( Redes residuales) en el espacio de 4 años. La razón detrás del aumento en el...
Me pregunto cómo calcular las medidas de precisión y recuperación para la clasificación multiclase multicabel, es decir, la clasificación donde hay más de dos etiquetas y cada instancia puede tener varias
En otras palabras, en lugar de tener un problema de dos clases, estoy lidiando con 4 clases y todavía me gustaría evaluar el rendimiento utilizando
¿Qué decide la elección de la función (Softmax vs Sigmoid) en un clasificador logístico? Supongamos que hay 4 clases de salida. Cada una de las funciones anteriores da las probabilidades de que cada clase sea la salida correcta. Entonces, ¿cuál tomar para un
Supongamos que tenemos a alguien construyendo un modelo predictivo, pero que alguien no está necesariamente versado en los principios estadísticos o de aprendizaje automático adecuados. Tal vez estamos ayudando a esa persona mientras está aprendiendo, o tal vez esa persona está utilizando algún...
Me gustaría tener tantos algoritmos que realicen la misma tarea que la regresión logística. Es decir, algoritmos / modelos que pueden dar una predicción a una respuesta binaria (Y) con alguna variable explicativa (X). Me alegraría que después de nombrar el algoritmo, si también mostrara cómo...
Ya teníamos varias preguntas sobre datos desequilibrados al usar regresión logística , SVM , árboles de decisión , embolsado y una serie de otras preguntas similares, ¡lo que lo convierte en un tema muy popular! Desafortunadamente, cada una de las preguntas parece ser específica del algoritmo y no...
Tengo un conjunto de datos en forma de (características, salida binaria 0 o 1), pero 1 ocurre muy raramente, por lo que al predecir siempre 0, obtengo una precisión entre 70% y 90% (dependiendo de los datos particulares que mire) ) Los métodos de ML me dan la misma precisión, y creo que debería...
¿Cuál es la diferencia entre un problema multiclase y un problema