¿Es la precisión una regla de puntuación incorrecta en una configuración de clasificación binaria?

13

Recientemente he estado aprendiendo sobre las reglas de puntuación adecuadas para los clasificadores probabilísticos. Varios hilos en este sitio web han hecho hincapié en que la precisión es una regla de puntuación inadecuada y no debe usarse para evaluar la calidad de las predicciones generadas por un modelo probabilístico como la regresión logística.

Sin embargo, bastantes trabajos académicos que he leído han dado una pérdida de clasificación errónea como un ejemplo de una regla de puntuación adecuada (no estricta) en un entorno de clasificación binaria. La explicación más clara que pude encontrar fue en este documento , en la parte inferior de la página 7. A mi entender, minimizar la pérdida de clasificación errónea es equivalente a maximizar la precisión, y las ecuaciones en el documento tienen sentido intuitivamente.

Por ejemplo: usando la notación del artículo, si la probabilidad condicional verdadera (dado algún vector de característica x ) de la clase de interés es η = 0.7, cualquier pronóstico q > 0.5 tendría una pérdida esperada R (η | q ) = 0.7 (0) + 0.3 (1) = 0.3, y cualquier q 0.5 tendría una pérdida esperada de 0.7. Por lo tanto, la función de pérdida se minimizaría en q = η = 0.7 y, en consecuencia, sería adecuada; La generalización de todo el rango de probabilidades y pronósticos condicionales verdaderos parece bastante simple a partir de ahí.

Suponiendo que los cálculos y las declaraciones anteriores son correctos, los inconvenientes de un mínimo no único y todas las predicciones superiores a 0.5 que comparten la misma pérdida mínima esperada son evidentes. Todavía no veo ninguna razón para usar la precisión sobre las alternativas tradicionales, como la puntuación de registro, la puntuación de Brier, etc. Sin embargo, ¿es correcto decir que la precisión es una regla de puntuación adecuada al evaluar modelos probabilísticos en un entorno binario, o estoy haciendo un error, ya sea en mi entendimiento de la pérdida de clasificación errónea, o en equipararlo con precisión?

Zyzzva
fuente

Respuestas:

15

TL; DR

La precisión es una regla de puntuación incorrecta. No lo uses

La versión un poco más larga

En realidad, la precisión ni siquiera es una regla de puntuación. Entonces, preguntar si es (estrictamente) apropiado es un error de categoría. Lo máximo que podemos decir es que, bajo supuestos adicionales , la precisión es consistente con una regla de puntuación que es incorrecta, discontinua y engañosa. (No lo uses)

Tu confusión

Su confusión se debe al hecho de que la pérdida de clasificación errónea según el documento que cita tampoco es una regla de puntuación.

Los detalles: reglas de puntuación versus evaluaciones de clasificación

Vamos a arreglar la terminología. Estamos interesados ​​en un resultado binario , y tenemos una predicción probabilística . Sabemos que , pero nuestro modelo puede o no saber eso.q = P ( Y = 1 ) ( 0 , 1 ) P ( Y = 1 ) = η > 0,5 qy{0,1}q^=P^(Y=1)(0,1)P(Y=1)=η>0.5q^

Una regla de puntuación es un mapeo que toma una predicción probabilística y un resultado a una pérdida, yq^y

s:(q^,y)s(q^,y).

q = η s q = ηs es apropiado si está optimizado en expectativa por . ("Optimizado" generalmente significa "minimizado", pero algunos autores invierten los signos y tratan de maximizar una regla de puntuación). es estrictamente apropiado si está optimizado en expectativa solo por .q^=ηsq^=η

Normalmente evaluaremos en muchas predicciones y los resultados correspondientes y promedio para estimar esta expectativa.sq^iyi

Ahora, ¿qué es la precisión ? La precisión no toma una predicción probabilística como argumento. Se necesita una clasificacióny^{0,1} y un resultado:

a:(y^,y)a(y^,y)={1,y^=y0,y^y.

Por lo tanto, la precisión no es una regla de puntuación . Es una evaluación de clasificación. (Este es un término que acabo de inventar; no lo busques en la literatura).

Ahora, por supuesto, podemos tomar una predicción probabilística como nuestra y convertirla en una clasificación . Pero para hacerlo, necesitaremos las suposiciones adicionales aludidas anteriormente. Por ejemplo, es muy común usar un umbral y clasificar:q^y^θ

y^(q^,θ):={1,q^θ0,q^<θ.

Un valor umbral muy común es . Tenga en cuenta que si usamos este umbral y luego evaluamos la precisión sobre muchas predicciones (como arriba) y los resultados correspondientes , entonces llegamos exactamente a la pérdida de clasificación errónea según Buja et al. Por lo tanto, la pérdida de clasificación errónea tampoco es una regla de puntuación, sino una evaluación de clasificación.θ=0.5q^iyi

Si tomamos un algoritmo de clasificación como el anterior, podemos convertir una evaluación de clasificación en una regla de puntuación. El punto es que necesitamos los supuestos adicionales del clasificador. Y esa precisión o pérdida de clasificación errónea o cualquier otra evaluación de clasificación que elijamos puede depender menos de la predicción probabilística y más de la forma en que convertimos en una clasificación . Por lo tanto, optimizar la evaluación de clasificación puede estar persiguiendo un arenque rojo si realmente estamos interesados ​​en evaluar .q^q^y^=y^(q^,θ)q^

Ahora, ¿qué tiene de incorrecto estas reglas de puntuación bajo supuestos adicionales? Nada, en el presente caso. , bajo el implícito , maximizará la precisión y minimizará la pérdida de clasificación errónea sobre todas las posibles . Entonces, en este caso, nuestra suposición de regla de puntuación bajo supuestos adicionales es correcta.q^=ηθ=0.5q^(0,1)

Tenga en cuenta que lo importante para la precisión o la pérdida de clasificación errónea es solo una pregunta: ¿clasificamos ( ) todo como la clase mayoritaria o no? y^Si lo hacemos, la pérdida de precisión o clasificación errónea es feliz. Si no, no lo son. Lo importante de esta pregunta es que solo tiene una conexión muy tenue con la calidad de .q^

En consecuencia, nuestras suposiciones de reglas de puntaje bajo adicionales no son estrictamente apropiadas, ya que cualquier conducirá a la misma evaluación de clasificación. Podríamos usar el estándar , creer que la clase mayoritaria ocurre con y clasificar todo como la clase mayoritaria, porque . La precisión es alta, pero no tenemos ningún incentivo para mejorar nuestro al valor correcto de .theta=0,5 q =0,99 qtheta q ηq^θθ=0.5q^=0.99q^θq^η

O podríamos haber hecho un análisis extenso de los costos asimétricos de la clasificación errónea y haber decidido que el mejor umbral de probabilidad de clasificación debería ser . Por ejemplo, esto podría suceder si significa que padece alguna enfermedad. Podría ser mejor tratarlo incluso si no padece la enfermedad ( ), en lugar de al revés, por lo que podría tener sentido tratar a las personas incluso si hay una baja probabilidad pronosticada (pequeño ) lo padecen. Entonces podríamos tener un modelo terriblemente incorrecto que cree que la verdadera clase mayoritaria solo ocurre cony = 1 y = 0 q q = 0,25 qθθ=0.2y=1y=0q^q^=0.25- pero debido a los costos de clasificación errónea, todavía clasificamos todo como esta clase minoritaria (asumida), porque nuevamente . Si hiciéramos esto, la pérdida de precisión o clasificación errónea nos haría creer que estamos haciendo todo bien, incluso si nuestro modelo predictivo ni siquiera entiende cuál de nuestras dos clases es la mayoría.q^θ

Por lo tanto, la pérdida de precisión o clasificación errónea puede ser engañosa.

Además, la precisión y la pérdida de clasificación errónea son inadecuadas bajo los supuestos adicionales en situaciones más complejas donde los resultados no son idóneos. Frank Harrell, en su publicación de blog Daño causado por la precisión de clasificación y otras reglas de puntuación de precisión incorrecta discontinua, cita un ejemplo de uno de sus libros en el que el uso de la precisión o la pérdida de clasificación errónea conducirá a un modelo mal especificado, ya que no están optimizados por el predictivo condicional correcto probabilidad.

Otro problema con la precisión y la pérdida de clasificación errónea es que son discontinuos en función del umbral . Frank Harrell también aborda esto.θ

Se puede encontrar más información en ¿Por qué la precisión no es la mejor medida para evaluar los modelos de clasificación? .

La línea de fondo

No uses la precisión. Tampoco la pérdida de clasificación errónea.

El meollo de la cuestión: "estricto" vs. "estrictamente"

¿Deberíamos estar hablando de reglas de puntuación "estrictas" o de reglas de puntuación "estrictamente"? "Estricto" modifica "apropiado", no "regla de puntuación". (Hay "reglas de puntuación adecuadas" y "reglas de puntuación estrictamente apropiadas", pero no hay "reglas de puntuación estrictas"). Como tal, "estrictamente" debe ser un adverbio, no un adjetivo, y debe usarse "estrictamente". Como es más común en la literatura, por ejemplo, los artículos de Tilmann Gneiting.

Stephan Kolassa
fuente
Hay muchos aspectos de su publicación que no sigo (o siento que no son relevantes para la pregunta que hice), pero comencemos con "la pérdida de clasificación errónea según el documento que cita no es una regla de puntuación". La fórmula se da muy claramente en el documento: L1 (1-q) = 1 [q <= 0.5] (perdón por el mal formato). Es, a todos los efectos prácticos, una función de paso que mapea directamente cualquier predicción probabilística y su resultado asociado a una pérdida de 0 o 1. Además, 0.5 es solo un parámetro que controla dónde ocurre el paso; No veo la "suposición" involucrada. ¿Cómo es que esto no es una regla de puntuación?
Zyzzva
1
El umbral de 0.5 es el supuesto. La predicción probabilística se asigna a una clasificación utilizando el umbral, y la pérdida de clasificación errónea es entonces solo una función de esta clasificación. Podría calcular la pérdida de clasificación errónea para cualquier otra clasificación, por ejemplo, una que arroje un dado y asigne una instancia a la clase A si sacamos 1 o 2. Hice todo lo posible para explicar qué es un tema complicado y a menudo incomprendido (y Siento que todo lo que escribo es relevante); Lo siento si no tuve éxito. Estaré encantado de discutir cualquier punto restante. q
Stephan Kolassa
1
En cuanto al comentario de relevancia, me disculpo si salió mal. Traté de enfocar el alcance de la pregunta para que fuera específicamente acerca de lo apropiado versus lo inapropiado, no discontinuo / engañoso / etc. Conozco bien los enlaces que proporcionó y no tengo problemas con sus comentarios sobre los costos de clasificación errónea o el resultado final. Solo estoy buscando una explicación más rigurosa de la afirmación "la precisión es incorrecta", especialmente dado que este artículo sugiere lo contrario para el caso de uso común de los resultados binarios. Le agradezco que se haya tomado el tiempo para discutir esto conmigo y compartir sus pensamientos detallados.
Zyzzva
1
Después de una mayor reflexión, creo que tengo una idea más clara del punto que está haciendo. Si consideramos la misma función de paso con el paso en 0.6 (correspondiente a la clasificación en un umbral de 0.6), entonces la regla de puntuación es incorrecta, porque la pérdida esperada ya no se minimizará mediante una predicción q = n para n en el rango [ 0.5, 0.6]. En términos más generales, será incorrecto en todos los umbrales que no sean 0.5, y a menudo en la práctica queremos usar otros umbrales debido a los costos asimétricos de clasificación errónea, como usted señaló.
Zyzzva
1
Estoy de acuerdo en que la precisión es claramente una mala métrica para evaluar las probabilidades, incluso cuando se justifica un umbral de 0,5. Dije lo mismo al final de la publicación original que hice, pero esto ayudó a aclarar los detalles específicos con los que estaba teniendo problemas, es decir, reconciliar algo que no entendí como mostrar que la precisión es adecuada para los resultados binarios (cuando en realidad solo se aplica al caso muy específico de un umbral de 0,5) con la afirmación aparentemente en blanco y negro "la precisión es incorrecta" que he estado viendo mucho. Gracias por tu ayuda y tu paciencia.
Zyzzva