¿Cuándo es una regla de puntuación adecuada una mejor estimación de la generalización en un entorno de clasificación?

9

Un enfoque típico para resolver un problema de clasificación es identificar una clase de modelos candidatos y luego realizar la selección del modelo utilizando algún procedimiento como la validación cruzada. Por lo general, uno selecciona el modelo con la mayor precisión o alguna función relacionada que codifica información específica del problema, como .Fβ

Suponiendo que el objetivo final es producir un clasificador preciso (donde la definición de precisión es nuevamente, depende del problema), en qué situaciones es mejor realizar la selección del modelo utilizando una regla de puntuación adecuada en lugar de algo incorrecto, como precisión, precisión, recuperación ¿etc? Además, ignoremos los problemas de complejidad del modelo y asumamos a priori que consideramos todos los modelos igualmente probables.

Anteriormente hubiera dicho nunca. Sabemos, en un sentido formal, que la clasificación es un problema más fácil que la regresión [1], [2] y podemos derivar límites más estrictos para el primero que para el posterior ( ). Además, hay casos en los que intentar hacer coincidir con precisión las probabilidades puede dar como resultado límites de decisión incorrectos o sobreajuste . Sin embargo, en base a la conversación aquí y al patrón de votación de la comunidad con respecto a estos temas, he estado cuestionando esta opinión.

  1. Devroye, Luc. Una teoría probabilística del reconocimiento de patrones. Vol. 31. springer, 1996., Sección 6.7
  2. Kearns, Michael J. y Robert E. Schapire. Aprendizaje eficiente sin distribución de conceptos probabilísticos. Fundamentos de Ciencias de la Computación, 1990. Actas., 31º Simposio Anual sobre. IEEE, 1990.

S = { ( x 1 , y 1 ) , ... , ( x n , y n ) } x iX y i{ 1 , ... , K }() Esta afirmación puede ser un poco descuidada. Me refiero específicamente a que los datos etiquetados dados de la forma con e , parece ser más fácil estimar un límite de decisión que estimar con precisión las probabilidades condicionales.S={(x1,y1),,(xn,yn)}xiXyi{1,,K}

Alto
fuente

Respuestas:

4

Piense en esto como una comparación entre la prueba -test / Wilcoxon y la prueba Mood mediana. La prueba de mediana utiliza una clasificación óptima (por encima o por debajo de la mediana para una variable continua) de modo que solo pierde de la información en la muestra. La dicotomización en un punto diferente de la mediana perderá mucha más información. El uso de una regla de puntuación inadecuada, como la proporción clasificada "correctamente", es como máximo o aproximadamente eficiente. Esto da como resultado la selección de las características incorrectas y la búsqueda de un modelo que es falso.1t 21π 22π23

Frank Harrell
fuente
Supongo que no entiendo por qué la dicotomización es relevante. En última instancia, el objetivo es elegir un clasificador de alguna clase de hipótesis modo que sea ​​mínimo, dada alguna muestra finita consiste en ejemplos distribuidos de acuerdo con . H P ( x , y ) D ( h ( x ) y ) S DhHP(x,y)D(h(x)y)SD
alto
2
El problema es que la clasificación (en oposición a la predicción de riesgo) es una dicotomización innecesaria.
Frank Harrell
Entonces, ¿es seguro asumir que la respuesta a esta pregunta nunca es, siempre que el objetivo sea la toma de decisiones óptima de Bayes con respecto a alguna función de utilidad y que no coincida exactamente con las probabilidades?
alto
La decisión óptima de Bayes requiere riesgos pronosticados bien calibrados para que ambos estén vinculados. La decisión óptima no utiliza una dicotomización realizada anteriormente en la tubería, sino condiciones en la información completa, por ejemplo, no . P r o b ( Y = 1 | X > c )Prob(Y=1|X=x)Prob(Y=1|X>c)
Frank Harrell
1
Buena discusión En algunos casos, como con algunos detectores de spam, puede obtener un 'incierto'. Estoy más preocupado por los umbrales en problemas como el diagnóstico médico y el pronóstico.
Frank Harrell