¿Por qué con el clasificador Bayes logramos el mejor rendimiento que se puede lograr? ¿Cuál es la prueba / explicación formal de esto?
Por lo general, se considera que un conjunto de datos consiste en iid muestras de una distribución que genera sus datos. Luego, construye un modelo predictivo a partir de los datos dados: dada una muestra , predice la clase , mientras que la clase real de la muestra es .Dnxixif^(xi)f(xi)
Sin embargo, en teoría, podría decidir no elegir un modelo particular , sino considerar todos los modelos posibles a la vez y combinarlos de alguna manera en un gran modelo .f^chosenf^F^
Por supuesto, dados los datos, muchos de los modelos más pequeños podrían ser bastante improbables o inapropiados (por ejemplo, modelos que predicen solo un valor del objetivo, aunque haya múltiples valores del objetivo en su conjunto de datos ).D
En cualquier caso, desea predecir el valor objetivo de las nuevas muestras, que se extraen de la misma distribución que s. Una buena medida del rendimiento de su modelo sería
es decir, la probabilidad de que predecir el valor objetivo real para una aleatoriamente muestreada .xiee(model)=P[f(X)=model(X)],
X
Con la fórmula de Bayes, puede calcular cuál es la probabilidad de que una nueva muestra tenga el valor objetivo , dados los datos :xvD
P(v∣D)=∑f^P(v∣f^)P(f^∣D).
Uno debe enfatizar que
- generalmente es o , ya que es una función determinista de ,P(v∣f^)01f^x
- no generalmente, pero casi todo el tiempo, es imposible estimar (a excepción de los casos triviales mencionados anteriormente),P(f^∣D)
- generalmente no, pero casi todo el tiempo, el número de modelos posibles es demasiado grande para evaluar la suma superior.f^
Por lo tanto, es muy difícil obtener / estimar en la mayoría de los casos.P(v∣D)
Ahora, procedemos al clasificador Optimal Bayes. Para una dada , predice el valor
Dado que este es el valor más probable entre todos los valores objetivo posibles , el clasificador Optimal Bayes maximiza la medida de rendimiento .xv^=argmaxv∑f^P(v∣f^)P(f^∣D).
ve(f^)
Como siempre usamos el clasificador Bayes como punto de referencia para comparar el rendimiento de todos los demás clasificadores.
Probablemente, use la versión ingenua del clasificador Bayes. Es fácil de implementar, funciona razonablemente bien la mayor parte del tiempo, pero solo calcula una estimación ingenua de .P(v∣D)
El rendimiento en términos de tasa de éxito de un clasificador se relaciona con la probabilidad de que una clase verdadera igual a la clase predicha .CT CP
Podría expresar esta probabilidad como la integral sobre todas las situaciones posibles del vector de características (o suma cuando es discreto) y la probabilidad condicional para clasificar correcta para esasX X x
Donde es la densidad de probabilidad para el vector de características .f(x) X
Si, para un posible conjunto de características , un clasificador no selecciona la clase más probable para ese conjunto de características, entonces se puede mejorar.x
El clasificador Bayes siempre selecciona la clase más probable para cada conjunto de características (el término es máximo), por lo que no se puede mejorar, al menos no en función de las características .x P(CT=CP|x) x
fuente