¿Es esta una forma correcta de actualizar continuamente una probabilidad usando el Teorema de Bayes?

Digamos que estoy tratando de averiguar la probabilidad de que el sabor de helado favorito de alguien sea la vainilla.

Sé que a la persona también le gustan las películas de terror.

Quiero averiguar la probabilidad de que el helado favorito de la persona sea vainilla, dado que disfruta de las películas de terror.

Sé lo siguiente:

de las personas elige la vainilla como su sabor de helado favorito. (Esta es mi ) $5\%$ $P(A)$
de las personas cuyo favorito es el helado de vainilla también adora las películas de terror. (Esta es mi $10\%$ ) $P(B|A)$
de las personas cuyo favorito no es el helado de vainilla también ama las películas de terror (Esta es mi $1\%$ ) $P(B|\lnot A)$

Entonces, lo calculo así: Encuentro que(redondeado a la diezmilésima más cercana). Hay unposibilidades de que el sabor de helado favorito de un fanático de las películas de terror sea vainilla.

P (A | B) = \frac{0.05 \times 0.1}{(0.05 \times 0.1) + (0.01 \times (1 - 0.05))}

$P(A|B)=\frac{0.05\times0.1}{(0.05 \times 0.1)+(0.01 \times(1-0.05))}$

P (A | B) = 0.3448

$P(A|B) = 0.3448$

34.48 %

$34.48\%$

Pero luego me enteré de que la persona ha visto una película de terror en los últimos 30 días. Esto es lo que sé:

es la probabilidad posterior actualizada de que la vainilla sea el sabor de helado favorito de la persona: la en este próximo problema. $34.48\%$ $P(A)$
de las personas cuyo favorito es el helado de vainilla ha visto una película de terror en los últimos 30 días. $20\%$
$5\%$ de las personas cuyo favorito no es el helado de vainilla ha visto una película de terror en los últimos 30 días.

Esto da: cuando se redondea.

\frac{0.3448 \times 0.2}{(0.3448 \times 0.2) + (0.05 \times (1 - 0.3448))} = 0.6779

$\frac{0.3448\times0.2}{(0.3448\times0.2)+(0.05\times(1-0.3448))} = 0.6779$

Así que ahora creo que hay un posibilidades de que el fanático de las películas de terror adore los helados dado que han visto una película de terror en los últimos 30 días. $67.79\%$

Pero espera, hay otra cosa. También aprendí que la persona posee un gato.

Esto es lo que sé:

es la probabilidad posterior actualizada de que la vainilla sea el sabor de helado favorito de la persona: la $67.79\%$ $P(A)$ en este problema
$40\%$ de las personas cuyo favorito es el helado de vainilla también tienen gatos
$10\%$ de las personas cuyo favorito no es el helado de vainilla también posee gatos

Esto da:

\frac{0.6779 \times 0.4}{(0.6779 \times 0.4) + (0.1 \times (1 - 0.6779))} = 0.8938

$\frac{0.6779\times0.4}{(0.6779\times 0.4)+(0.1\times(1-0.6779))} = 0.8938$ cuando se redondea.

Mi pregunta básicamente se reduce a esto: ¿Estoy actualizando correctamente la probabilidad usando el teorema de Bayes? ¿Tengo algo más en mis métodos?

probability bayes usuario1626730
fuente

amor = favorito? No estás publicando grados de amor. si lo amas, es tu favorito. aclarar si es necesario.

generic_user

Buen punto. Cambié "amor" por "favorito". No es gramaticalmente correcto, pero es menos prolijo que decir "elige la vainilla para su sabor de helado favorito". Espero que eso aclare las cosas.

user1626730

Respuestas:

Esto es no correcto La actualización secuencial de este tipo solo funciona cuando la información que recibe de forma secuencial es independiente (p. Ej., Observaciones de una variable aleatoria). Si cada observación no es independiente, como en este caso, debe considerar la distribución de probabilidad conjunta. La forma correcta de actualizar sería volver a lo anterior, encontrar la probabilidad conjunta de que alguien ame las películas de terror, haya visto una película de terror en los últimos 30 días y sea dueño de un gato dado que elige o no la vainilla como su sabor favorito de helado, y luego actualizar en un solo paso.

La actualización secuencial como esta cuando sus datos no son independientes hará que su probabilidad posterior sea mucho más alta o más baja de lo que debería ser.

Jonathan Christensen
fuente

¿Qué quiere decir con "cuando la información que recibe de forma secuencial es independiente"? Si quiere decir "independiente del evento que está tratando de predecir", ¿sabe cómo puedo saber si la información que obtengo es independiente?

user1626730

Condicionalmente independiente dado el evento que está intentando predecir. Si fueran independientes del evento que intentas predecir, entonces no te servirían de nada. En cuanto a cómo puede saberlo, debe pensar cuáles son sus datos. En este caso, si alguien ha visto una película de terror en los últimos 30 días, claramente no es independiente de si ama las películas de terror.

Jonathan Christensen

Cuando dices "condicionalmente independiente", ¿supongo que quieres decir que cada P (B) (es decir, amante del cine de terror, dueño de un gato) no están relacionadas entre sí? Si es así, ¿la variable de propiedad del gato no sería independiente de la película de terror?

user1626730

Sí, puedes argumentar que la propiedad de un gato es independiente de la de las películas de terror. Sin embargo, no es necesariamente, por ejemplo, tal vez las mujeres sean más propensas a amar a los gatos y menos propensas a amar las películas de terror.

Jonathan Christensen

Hm, no estoy muy seguro de lo que quieres decir al agregar algo sobre mujeres y gatos. ¿Podría explicar más, por favor?

user1626730