¿Por qué el ingenuo clasificador bayes es óptimo para una pérdida de 0-1?

El clasificador Naive Bayes es el clasificador que asigna elementos a una clase función de la maximización de la posterior para la pertenencia a clases, y supone que las características de los elementos son independientes. $x$ $C$ $P(C|x)$

La pérdida 0-1 es la pérdida que asigna a cualquier clasificación errónea una pérdida de "1" y una pérdida de "0" a cualquier clasificación correcta.

A menudo leo (1) que el clasificador "Naive Bayes" es óptimo para la pérdida 0-1. ¿Por qué es esto cierto?

(1) Una fuente ejemplar: clasificador Bayes y error Bayes

machine-learning bayesian optimization naive-bayes loss-functions
fuente

¿Puede proporcionar una referencia para su afirmación, " A menudo leo que el clasificador" Naive Bayes "es óptimo para la pérdida 0-1 "? Como, ¿dónde puede haber leído este tipo de declaración en el pasado

Jon

editado, agregó una fuente

En realidad, esto es bastante simple: el clasificador de Bayes elige la clase que tiene mayor probabilidad de ocurrencia a posteriori (llamada estimación máxima a posteriori ). La función de pérdida 0-1 penaliza la clasificación errónea, es decir, asigna la pérdida más pequeña a la solución que tiene el mayor número de clasificaciones correctas. Entonces, en ambos casos estamos hablando del modo de estimación . Recuerde que el modo es el valor más común en el conjunto de datos, o el valor más probable , por lo que tanto maximizar la probabilidad posterior como minimizar la pérdida 0-1 lleva a estimar el modo.

Si necesita una prueba formal, Angela J. Yu la proporciona en el documento Introducción a la teoría de la decisión bayesiana :

La función de pérdida binaria 0-1 tiene la siguiente forma:

$l_{x} (\hat{s}, s^{*}) = 1 - δ_{\hat{s} s^{*}} = {\begin{cases} 1 & if \hat{s} \neq s^{*} \\ 0 & otherwise \end{cases}$ $l_\boldsymbol{x}(\hat s, s^*) = 1 - \delta_{\hat ss^*} = \begin{cases} 1 & \text{if} \quad \hat s \ne s^* \\ 0 & \text{otherwise} \end{cases}$
donde es la función Delta de Kronecker. (...) la pérdida esperada es: $\delta$

$\begin{aligned} L_{x} (\hat{s}) & = \sum_{s^{*}} l_{x} (\hat{s}, s^{*}) P (s = s^{*} ∣ x) \\ = \sum_{s^{*}} (1 - δ_{\hat{s} s^{*}}) P (s = s^{*} ∣ x) \\ = \sum_{s^{*}} P (s = s^{*} ∣ x) d s^{*} - \sum_{s^{*}} δ_{\hat{s} s^{*}} P (s = s^{*} ∣ x) \\ = 1 - P (s = s^{*} ∣ x) \end{aligned}$ $\begin{align} \mathcal{L}_\boldsymbol{x}(\hat s) &= \sum_{s^*} l_\boldsymbol{x}(\hat s, s^*) \; P(s = s^* \mid \boldsymbol{x}) \\ &= \sum_{s^*} (1 - \delta_{\hat ss^*}) \; P(s = s^* \mid \boldsymbol{x}) \\ &= \sum_{s^*} P(s = s^* \mid \boldsymbol{x}) ds^* - \sum_{s^*} \delta_{\hat ss^*} P(s = s^* \mid \boldsymbol{x}) \\ &= 1 - P(s = s^* \mid \boldsymbol{x}) \end{align}$

Esto es cierto para la estimación máxima a posteriori en general. Entonces, si conoce la distribución posterior, suponiendo una pérdida de 0-1, la regla de clasificación más óptima es tomar el modo de la distribución posterior, a esto le llamamos un clasificador Bayes óptimo . En la vida real, generalmente no conocemos la distribución posterior, sino que la estimamos. El clasificador Naive Bayes se aproxima al clasificador óptimo al observar la distribución empírica y al asumir la independencia de los predictores. Entonces, el ingenuo clasificador Bayes no es óptimo en sí mismo, pero se aproxima a la solución óptima. En su pregunta parece confundir esas dos cosas.

Tim
fuente

Creo que entiendo: Entonces, la prueba formal sería algo similar a la Pérdida (action_1) = 1-P (action_2 | data) <--- queremos minimizar esto. Minimizar esto es, de nuevo, igual a maximizar el previo de la clase correcta (es decir, maximizar P (acción_2 | datos). Sin embargo, lo que me confunde es por qué no todos los clasificadores serían óptimos en este aspecto, ya que este parece ser el requisito más básico para la asignación de una muestra de datos a una clase. Entonces, si siempre elegimos asignar nuestra muestra de datos a la clase con un posterior más alto, ¿no estamos completando automáticamente esta optimización?

@TestGuest revisa mi edición para la prueba formal.

Tim

Ese es el formalismo más complicado que he visto para tal prueba :)) gracias, sin embargo, espero que también ayude a otros.

¿Por qué el ingenuo clasificador bayes es óptimo para una pérdida de 0-1?

Respuestas: