Si dos clases y tienen una distribución normal con parámetros conocidos ( , como sus medias y , son sus covarianzas) ¿cómo podemos calcular error del clasificador de Bayes para ellos?
Supongamos también que las variables están en el espacio N-dimensional.
Nota: Una copia de esta pregunta también está disponible en https://math.stackexchange.com/q/11891/4051 que aún no tiene respuesta. Si se responde alguna de estas preguntas, se eliminará la otra.
Respuestas:
No hay una forma cerrada, pero puedes hacerlo numéricamente.
Como ejemplo concreto, considere dos gaussianos con los siguientes parámetros
El límite del clasificador óptimo de Bayes corresponderá al punto donde dos densidades son iguales
Dado que su clasificador elegirá la clase más probable en cada punto, debe integrarse sobre la densidad que no es la más alta para cada punto. Para el problema anterior, corresponde a volúmenes de las siguientes regiones
Puede integrar dos piezas por separado utilizando algún paquete de integración numérica. Para el problema anterior, obtengo el
0.253579
siguiente código de Mathematicafuente
Parece que puede hacer esto de dos maneras, dependiendo de los supuestos del modelo que esté feliz de hacer.
Enfoque Generativo
Suponiendo un modelo generativo para los datos, también necesita conocer las probabilidades previas de cada clase para una declaración analítica del error de clasificación. Busque Análisis discriminante para obtener el límite de decisión óptimo en forma cerrada, luego calcule las áreas en el lado equivocado de cada clase para obtener las tasas de error.
Asumo que este es el enfoque previsto por su invocación de la clasificador de Bayes, que se define sólo cuando se especifica todo lo relacionado con el proceso de generación de datos. Dado que esto rara vez es posible, siempre vale la pena considerar
Enfoque de discriminación
Si no desea o no puede especificar las probabilidades de clase anteriores, puede aprovechar el hecho de que la función discriminante puede, en muchas circunstancias (aproximadamente, distribuciones condicionales de clase familiar exponencial) ser modelada directamente por un modelo de regresión logística. El cálculo de la tasa de error es el del modelo de regresión logística relevante.
Para una comparación de enfoques y una discusión de las tasas de error, Jordan 1995 y Jordan 2001 y las referencias pueden ser de interés.
fuente
Aquí puede encontrar varias pistas para su pregunta, tal vez no existe la respuesta completa, pero ciertamente partes muy valiosas. http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2766788/
fuente
Para completar, no es difícil encontrar buenas referencias que calculen la TV entre distribuciones gaussianas multivariadas.
fuente