(Soy un novato en las estadísticas. Soy matemático y programador y estoy tratando de construir algo así como un ingenuo filtro de spam bayesiano).
He notado en muchos lugares que las personas tienden a descomponer el denominador en la ecuación del Teorema de Bayes. Entonces, en lugar de esto:
Se nos presenta esto:
Puede ver que esta convención se usa en este artículo de Wikipedia y en esta publicación perspicaz de Tim Peters.
Estoy desconcertado por esto. ¿Por qué el denominador se desglosa así? ¿Cómo ayuda eso a las cosas? ¿Qué tiene de complicado calcular , que en el caso de los filtros de spam sería ?The probability that the word "cheese" appears in an email, regardless of whether it's spam or not
Respuestas:
La respuesta breve a su pregunta es: "la mayoría de las veces no sabemos qué es P (queso) y, a menudo, es (relativamente) difícil de calcular".
La respuesta más larga por la cual la Regla / Teorema de Bayes se expresa normalmente en la forma en que usted escribió es porque en los problemas bayesianos tenemos, sentado en nuestro regazo, una distribución previa (la P (B) arriba) y la probabilidad (la P (A | B), P (A | notB) anterior) y es una cuestión relativamente simple de multiplicación calcular el posterior (P (B | A)). Ir a la molestia de volver a expresar P (A) en su forma resumida es un esfuerzo que podría gastarse en otro lugar.
Puede que no parezca tan complicado en el contexto de un correo electrónico porque, como has señalado correctamente, es solo P (queso), ¿verdad? El problema es que con problemas Bayesianos más involucrados en el campo de batalla, el denominador es una integral desagradable, que puede o no tener una solución de forma cerrada. De hecho, a veces necesitamos métodos sofisticados de Montecarlo solo para aproximar la integral y la agitación de los números puede ser un verdadero dolor en la parte trasera.
Pero más al punto, por lo general, ni siquiera nos importa qué es P (queso). Tenga en cuenta que estamos tratando de perfeccionar nuestra creencia sobre si un correo electrónico es spam o no , y no podría importarnos menos la distribución marginal de los datos (la P (A), arriba). Es solo una constante de normalización, de todos modos, que no depende del parámetro; el acto de suma elimina cualquier información que tengamos sobre el parámetro. La constante es una molestia para calcular y, en última instancia, es irrelevante cuando se trata de concentrarse en nuestras creencias sobre si el correo electrónico no deseado es o no. A veces estamos obligados a calcularlo, en cuyo caso la forma más rápida de hacerlo es con la información que ya tenemos: el previo y la probabilidad.
fuente
Una razón para usar la regla de probabilidad total es que a menudo tratamos con las probabilidades del componente en esa expresión y es sencillo encontrar la probabilidad marginal simplemente conectando los valores. Para una ilustración de esto, vea el siguiente ejemplo en Wikipedia:
Otra razón es reconocer formas equivalentes de la regla de Bayes al manipular esa expresión. Por ejemplo:
Divide a través del RHS por el numerador:
Lo cual es una buena forma equivalente para la regla de Bayes, hecha aún más útil al restar esto de la expresión original para obtener:
Esta es la regla de Bayes establecida en términos de probabilidades, es decir, probabilidades posteriores contra B = factor de Bayes contra B multiplicado por las probabilidades anteriores contra B. (O podría invertirlo para obtener una expresión en términos de probabilidades para B.) El factor de Bayes es La proporción de las probabilidades de sus modelos. Dado que no estamos seguros sobre el mecanismo subyacente de generación de datos, observamos datos y actualizamos nuestras creencias.
No estoy seguro de si esto le resulta útil, pero espero que no sea desconcertante; obviamente deberías trabajar con la expresión que mejor funcione para tu escenario. Quizás alguien más pueda entrar con razones aún mejores.
fuente
Las respuestas anteriores son lo suficientemente detalladas, pero una forma intuitiva de ver por qué (es decir, el dinominador en el teorema de Bayes) se divide en dos casos.PAGS( A )
fuente