¿Se puede interpretar la probabilidad predicha de la regresión logística como la confianza en la clasificación?

12

¿Podemos interpretar la probabilidad posterior obtenida de un clasificador que genera un valor de clase predicho y una probabilidad (por ejemplo, regresión logística o Naive Bayes) como algún tipo de puntaje de confianza que se asigna a ese valor de clase predicho?

mel
fuente

Respuestas:

8

Como otras respuestas indican correctamente, las probabilidades reportadas de modelos como la regresión logística y la ingenua Bayes son estimaciones de la probabilidad de clase. Si el modelo fuera verdadero, la probabilidad sería la probabilidad de una clasificación correcta.

Sin embargo, es bastante importante comprender que esto podría ser engañoso porque el modelo se estima y, por lo tanto, no es un modelo correcto. Hay al menos tres problemas.

  • Incertidumbre de las estimaciones.
  • Modelo de especificación errónea.
  • Parcialidad.

La incertidumbre es solo el hecho presente en todas partes de que la probabilidad es solo una estimación. Un intervalo de confianza de la probabilidad de clase estimada podría proporcionar alguna idea sobre la incertidumbre (de la probabilidad de clase, no de la clasificación).

--

Si el procedimiento de estimación (intencionalmente) proporciona una estimación sesgada , las probabilidades de la clase son incorrectas. Esto es algo que veo con métodos de regularización como lazo y cresta para la regresión logística. Si bien una elección de validación cruzada de la regularización conduce a un modelo con buen rendimiento en términos de clasificación, las probabilidades de clase resultantes se subestiman claramente (demasiado cerca de 0.5) en los casos de prueba. Esto no es necesariamente malo, pero es importante tenerlo en cuenta.

NRH
fuente
2

Para un caso de prueba (entrada particular), la probabilidad predictiva de su clase (digamos la etiqueta 1 para la salida binaria) es la posibilidad de que el ejemplo de prueba pertenezca a esa clase. En muchos de estos casos de prueba, la proporción que pertenece a la clase 1 tenderá a la probabilidad predictiva. La confianza tiene connotaciones de intervalos de confianza, que son algo muy diferente.

Yoda
fuente
1

Si un clasificador predice una determinada clase con una probabilidad, ese número puede usarse como un proxy para el grado de confianza en esa clasificación. No debe confundirse con los intervalos de confianza. Por ejemplo, si el clasificador P predice dos casos como +1 y -1 con una probabilidad del 80% y 60%, entonces es correcto decir que está más seguro de la clasificación +1 que la clasificación -1. La varianza medida por p (1-p) también es una buena medida de incertidumbre. Tenga en cuenta que la confianza inicial es del 50%, no 0.

brócoli
fuente
1

Dado un clasificador con 2 clases (por ejemplo, un clasificador de regresión logística o discriminante lineal de 2 clases), el valor discriminante para ambas clases se puede aplicar a una función softmax para obtener una estimación de la probabilidad posterior para esa clase:

P1 = exp (d1) / (exp (d1) + exp (d2))

Donde P1 es la estimación de probabilidad posterior para la clase 1, d1 y d2 son valores discriminantes para las clases 1 y 2 respectivamente. En este caso, la probabilidad posterior estimada para una clase dada puede tomarse como un grado de confianza en la clase, para un caso dado ya que P1 será igual a 1 - P2.

BGreene
fuente
1
Esta respuesta parece equiparar "probabilidad" con "confianza", mientras que la respuesta de @ Yoda (correctamente) distingue las dos.
whuber
@whuber Creo que, en términos generales, la confianza se puede ver como la fuerza de la creencia. De esa manera es como una probabilidad. La confianza y el intervalo de confianza son dos cosas diferentes. Sin embargo, incluso para el término intervalo de confianza, el nivel de confianza es una probabilidad de cobertura para el intervalo aleatorio.
Michael R. Chernick
No estoy en desacuerdo con sus comentarios, @Michael, en el sentido de que un término como "puntaje de confianza" podría significar casi cualquier cosa (pero tal vez su uso debería ser desaprobado exactamente por esa razón). Sin embargo, ¿en qué sentido el valor ajustado por regresión logística es una "probabilidad de cobertura"? ¿Su uso propuesto de "confianza" como fuerza de creencia lo hace sinónimo de "probabilidad" subjetiva, o se mantiene alguna distinción? (Si es así, ¿qué?)
whuber
1
@whuber Creo que estás profundizando mucho más de lo que pretendía con mi comentario. Solo quiero decir que solo porque comúnmente conectamos la palabra "confianza" con el intervalo de confianza, no significa que el puntaje de confianza del término OP no pueda usarse para significar una probabilidad (tal vez como la visión bayesiana de la probabilidad como un nivel subjetivo de creencia pero no necesariamente).
Michael R. Chernick
1
@whuber, en realidad me refería a la confianza en la etiqueta de la clase en el sentido de "fuerza de creencia", es decir, cuanto mayor es el valor de probabilidad posterior para una clase dada, más confianza tiene en la etiqueta de clase predicha. Sin embargo, me complace eliminar esta respuesta.
BGreene