Aritmética para actualizar probabilidades usando el teorema de Bayes

8

Esta puede ser una pregunta elemental, por eso no he podido encontrarla en Stackexchange o Mathoverflow, sin embargo, estoy teniendo problemas con la aritmética involucrada en la actualización de probabilidades usando el teorema de Bayes para un problema en el que estoy trabajando.

Antecedentes:

Estoy tratando de dar pronósticos de probabilidad a eventos futuros que no tienen o tienen pocos precedentes. A diferencia de la mayoría de la literatura y los textos sobre Bayes que usan distribuciones previamente conocidas para dar probabilidades sobre eventos futuros dentro de parámetros similares, mi situación se basa en la opinión de expertos solo con pocas o ninguna distribución razonable de referencia.

Ejemplo:

GM anunció que están desarrollando un nuevo automóvil, pero no dijo cuándo se lanzaría. El Gerente de Producción de KIA necesita saber cuándo estarán listos para lanzarlo para poder lanzar su nuevo auto al mismo tiempo.

KIA sabe que el nuevo automóvil necesita los siguientes componentes para estar listo para el lanzamiento (1) motor, (2) transmisión, (3) cuerpo, (4) Ruedas y suspensión. Los experimentados ingenieros de KIA afirman que para un nuevo proyecto como este tienen un 90% de confianza en que se puede completar en dos años. KIA también descubrió que GM hizo una prueba con la nueva transmisión en otro SUV y funcionó según lo diseñado con una tasa de éxito del 95%. Los mismos ingenieros declararon que, dada esta prueba de transmisión, un automóvil puede completarse dentro de ese período de tiempo el 70% del tiempo.

A mi modo de ver, en este punto KIA puede comenzar el cálculo bayesiano con la muestra inicial de la siguiente manera:

   A = GM will release the new car in two years
   B1 = GM will successfully test a new transmission
   P(A) = Prior Probability that GM will release the new car in two years
   P(B1) = Probability that GM will successfully test a new transmission
   P(B1|A) = Likelihood that given a successful transmission test, the car will be released within 2 years

Asignando valores de la siguiente manera

   P(A) = .9
   P(B1) = .95
   P(B1|A) = .7

P(A|B1)=P(A)P(B1|A)P(A)P(B1|A)+P(A¯)P(B1|A¯)

.9545=.9.7(.9.7)+(.1.3)

Poco después de que el departamento de estadísticas de KIA ofreciera esta actualización, GM anunció que habían probado su nuevo motor y que tenía una tasa de éxito del 98% en todas sus pruebas. Los ingenieros de KIA dijeron que, por lo general, si hay una prueba de motor exitosa, existe una probabilidad del 80% de que un automóvil se complete a tiempo, pero no sabían cuál era la probabilidad del tiempo de finalización general, tanto el motor como el motor. prueba de transmisión fue.

Los valores ahora para nuestra segunda evidencia, que deben tenerse en cuenta, son independientes para este caso, pero no en todos los casos, por ejemplo, el cuerpo debe continuar después de la suspensión:

   P(B2) = .98
   P(B2|A) = .8

Entonces, aquí es donde tengo problemas: integrar aritméticamente la P posterior (A | B1) en el cálculo de P (A | B1, B2), dado que las anteriores deben permanecer constantes. Como mencioné, algunos eventos dentro de { } son independientes, otros son condicionales.B1...Bn

He visto la entrada de wikipedia que describe la extensión de tres bahías de eventos:

P(A|B1,B2)=P(B2|A,B1)P(B1|A)P(A)P(B2|B1)P(B1)

Sin embargo, ¿qué pasa con una cuarta y quinta extensión?

La mayoría de los libros y recursos en línea que tengo no muestran los pasos para actualizar las publicaciones anteriores de ninguna manera que pueda discriminar. Podría ser que estoy demasiado alejado de mis días de cálculo de pregrado para interpretarlo, pero mi temor es que necesito tener una experiencia significativa en teoría de conjuntos y matemáticas de nivel de posgrado para hacer lo que parece ser un cálculo simple. Este intercambio es lo más cercano que pude encontrar e incluso no lo atraviesa. El hecho de que después de una semana de búsqueda no haya encontrado un tutorial básico sobre la mecánica de la actualizaciónEl teorema de Bayes (no importa en qué consiste el teorema de Bayes y cómo funciona; hay más que suficientes) más allá de la primera implementación, me hace pensar que no es un cálculo trivial. ¿Hay una manera directa de hacer esta actualización sin matemáticas de nivel de posgrado?

Nota: Soy consciente de la ironía relacionada con la dificultad inherente del "problema de actualización" WRT Bayes, ya que Yudkowski ha continuado con esto por algún tiempo. Estaba asumiendo, quizás incorrectamente, que aquellos que trabajaban en él estaban haciendo referencia a iteraciones mucho más complejas, sin embargo, soy consciente de que podría ser el caso con el que me estoy encontrando.

Andrés
fuente

Respuestas:

10

Comenzaré respondiendo su pregunta sobre la actualización de eventos con la "cuarta y quinta extensiones". Como sospechaba, la aritmética es bastante simple.

Primero, recuerde cómo el teorema de Bayes se deriva de la definición de probabilidad condicional:

ingrese la descripción de la imagen aquí

Al condicionar A en el numerador podemos llegar a la forma más familiar:

ingrese la descripción de la imagen aquí

Ahora considere si no tenemos solo B, sino más bien 2 o más eventos B_1, B_2 ... Para eso, podemos derivar la extensión Bayes de tres eventos que usted cita usando la regla de la cadena de probabilidad , que es (de wikipedia):

ingrese la descripción de la imagen aquí

Para B_1 y B_2, comenzamos con la definición de probabilidad condicional

ingrese la descripción de la imagen aquí

Y use la regla de la cadena tanto en el numerador como en el denominador:

ingrese la descripción de la imagen aquí

Y así, hemos vuelto a derivar la ecuación que cita de wikipedia. Intentemos agregar otro evento:

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

Agregar un quinto evento es igualmente simple (un ejercicio para el lector). Pero seguramente notará un patrón, a saber, que la respuesta a la versión de tres eventos se mantiene dentro de la respuesta a la versión de cuatro eventos, para que podamos reescribir esto como:

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

O, más generalmente, la regla para actualizar la parte posterior después de la enésima evidencia:

ingrese la descripción de la imagen aquí

Esa fracción allí es lo que le interesa. Ahora, de lo que está hablando es que esto podría no ser fácil de calcular, no por ninguna dificultad aritmética, sino por dependencias dentro de las B. Si decimos que cada B se distribuye independientemente, la actualización se vuelve muy simple:

ingrese la descripción de la imagen aquí

(¡De hecho, notará que es una aplicación simple del teorema de Bayes!) La complejidad de esa fracción depende de cuál de las pruebas anteriores depende su nueva evidencia. La importancia de la dependencia condicional entre sus variables y sus pruebas es precisamente por qué se desarrollaron las redes bayesianas (de hecho, lo anterior describe la factorización de las redes bayesianas).

Ahora, hablemos de tu ejemplo. Primero, su interpretación del problema verbal tiene un problema. Sus interpretaciones de 70% y 80% son, respectivamente,

P(B1|A) = .7
P(B2|A) = .8

Pero (según sus definiciones) A ​​significa que el automóvil se completará a tiempo, B_1 significa que GM prueba la transmisión con éxito, y B_2 significa que hay una prueba de motor exitosa, lo que significa que los está retrocediendo, deberían ser

P(A|B1) = .7
P(A|B2) = .8

Ahora, sin embargo, el problema verbal realmente no tiene sentido. Aquí están los tres problemas:

1) Te están dando de manera efectiva lo que estás buscando: diciendo "dada esta prueba de transmisión, un automóvil puede completarse dentro de ese período de tiempo el 70% del tiempo", y luego preguntando "cuál es la probabilidad de que se complete un automóvil en ese momento".

2) La evidencia lo empuja en la dirección opuesta que el sentido común esperaría. La probabilidad era del 90% antes de saber acerca de la transmisión, ¿cómo puede el conocimiento de una prueba exitosa reducirla al 70%?

3) Existe una diferencia entre una "tasa de éxito del 95%" y una probabilidad del 95% de que una prueba haya sido exitosa. La tasa de éxito puede significar muchas cosas (por ejemplo, qué proporción no se rompe una parte), lo que la convierte en una pregunta de ingeniería sobre la calidad de la parte, no una evaluación subjetiva de "¿qué tan seguros somos de la prueba?" Como ejemplo ilustrativo, imagine que estamos hablando de una pieza crítica de un cohete, que necesita al menos un 99.999% de posibilidades de trabajar durante un vuelo. Decir "La pieza se rompe el 20% del tiempo" no significa que haya una probabilidad del 80% de que la prueba haya tenido éxito, y por lo tanto una probabilidad del 80% de que pueda lanzar el cohete la próxima semana. Tal vez la parte demore 20 años en desarrollarse y repararse; no hay forma de saberlo según la información que se le proporciona.

Por estas razones, el problema está muy mal redactado. Pero, como indiqué anteriormente, la aritmética involucrada en la actualización basada en múltiples eventos es bastante sencilla. En ese sentido, espero haber respondido a su pregunta.

ETA: Basado en sus comentarios, yo diría que debería reelaborar la pregunta desde cero. Sin duda, debe deshacerse de la idea de la "tasa de éxito" del 95% / 98%, que en este contexto es una cuestión de ingeniería y no una estadística bayesiana. En segundo lugar, las estimaciones de "Tenemos un 70% de confianza, dado que esta parte funciona, que el automóvil estará listo en dos años" es una probabilidad posterior, no una evidencia; no puedes usarlo para actualizar lo que ya tienes.

En la situación que está describiendo, necesita que las cuatro partes funcionen antes de la fecha límite. Por lo tanto, lo más inteligente sería simplemente decir "¿Cuál es la probabilidad de que cada parte funcione en dos años?" Luego tomas el producto de esas probabilidades (suponiendo independencia), y tienes la probabilidad de que todo funcione en dos años.

Dando un paso atrás, parece que en realidad estás tratando de combinar múltiples predicciones subjetivas en una sola. En ese caso, mi recomendación sería despedir a sus ingenieros. ¿Por qué? Porque le están diciendo que tienen un 90% de confianza en que estará listo en dos años, pero luego, después de enterarse de una prueba exitosa de la transmisión, reducen sus estimaciones al 70%. Si ese es el talento con el que estamos trabajando, ninguna estadística bayesiana nos ayudará :-)

Más en serio, tal vez si fuera más específico sobre el tipo de problema (que probablemente sea algo así como combinar P (A | B1) y P (A | B2)), podría darle más consejos.

David Robinson
fuente
Gracias, esto ayuda a aclarar el nivel de dificultad con el que estoy trabajando. Por lo que vale, diseñé el problema para que pueda haber un problema inherente allí. Con respecto a la redacción del problema: cada P (B_n | A) está destinada a ser independiente de la probabilidad previa. Usando el ejemplo, si GM finaliza algún componente en particular, los ingenieros tienen una probabilidad de que el automóvil se complete a tiempo, independientemente de otros componentes.
Andrew
No estoy muy seguro de lo que quieres decir: el problema con el problema verbal que das no es el nivel de dificultad, sino la redacción. ¿Es este un problema original o una tarea?
David Robinson el
Perdóname: me estoy adaptando a la ruptura de párrafo shift-enter en los comentarios. Como mencioné en la edición, es mi propio ejemplo el que puede estar mal redactado como mencionaste. Los conjuntos con los que trabajo son típicamente disjuntos con respecto a su fuente de datos, por lo que tengo que determinar a menudo cómo una nueva pieza de datos que no necesariamente se basa en otros datos del mismo conjunto o del mismo grupo afecta una hipótesis, por eso Lo escribí como lo hice. En el ejemplo anterior, imagine que los ingenieros tienen una probabilidad de finalización general basada en cada componente de forma independiente.
Andrew
Ver ediciones. ¿Está seguro de que tienen una estimación de finalización general basada en cada componente de forma independiente? ¿O tienen una estimación de la finalización de ese componente dada la prueba exitosa?
David Robinson el
Como mencionó, parece que estoy intentando actualizar P (A | B1) con P (A | B2), P (A | B3) ... P (A | Bn). Si lo prefiere, podemos eliminar esta discusión de los comentarios por correo electrónico. [email protected]
Andrew
0

Hay muchas formas de extender este resultado. La forma general es que Hay muchas formas de escribir numerador y denominador. Sus formularios dan dos ejemplos (suponiendo que y son lo mismo). Por supuesto, para un problema dado, debe formular el LHS escribiendo el RHS en términos de cantidades que realmente conoce; Si eso puede hacerse para su problema particular, probablemente valga una pregunta más específica, en este sitio.

P(A|B,C,D...)=P(A,B,C,D...)P(B,C,D,...)
B2C

Cuando las variables ( ), etc. son continuas, el cálculo de la parte posterior se vuelve mucho más complicado, en la mayoría de los problemas, y se requieren técnicas de matemática / estadística de nivel de posgrado.A,B,C,D

invitado
fuente