Digamos que estoy tratando de averiguar la probabilidad de que el sabor de helado favorito de alguien sea la vainilla.
Sé que a la persona también le gustan las películas de terror.
Quiero averiguar la probabilidad de que el helado favorito de la persona sea vainilla, dado que disfruta de las películas de terror.
Sé lo siguiente:
- de las personas elige la vainilla como su sabor de helado favorito. (Esta es mi P ( A ) )
- de las personas cuyo favorito es el helado de vainilla también adora las películas de terror. (Esta es mi P ( B | A )
- de las personas cuyo favorito no es el helado de vainilla también ama las películas de terror (Esta es mi P ( B | ¬ A )
Entonces, lo calculo así: Encuentro queP(A|B)=0.3448(redondeado a la diezmilésima más cercana). Hay un34,48% deposibilidades de que el sabor de helado favorito de un fanático de las películas de terror sea vainilla.
Pero luego me enteré de que la persona ha visto una película de terror en los últimos 30 días. Esto es lo que sé:
- es la probabilidad posterior actualizada de que la vainilla sea el sabor de helado favorito de la persona: la P ( A ) en este próximo problema.
- de las personas cuyo favorito es el helado de vainilla ha visto una película de terror en los últimos 30 días.
- de las personas cuyo favorito no es el helado de vainilla ha visto una película de terror en los últimos 30 días.
Esto da: cuando se redondea.
Así que ahora creo que hay un posibilidades de que el fanático de las películas de terror adore los helados dado que han visto una película de terror en los últimos 30 días.
Pero espera, hay otra cosa. También aprendí que la persona posee un gato.
Esto es lo que sé:
- es la probabilidad posterior actualizada de que la vainilla sea el sabor de helado favorito de la persona: la P ( A ) en este problema
- de las personas cuyo favorito es el helado de vainilla también tienen gatos
- de las personas cuyo favorito no es el helado de vainilla también posee gatos
Esto da:
Mi pregunta básicamente se reduce a esto: ¿Estoy actualizando correctamente la probabilidad usando el teorema de Bayes? ¿Tengo algo más en mis métodos?
fuente
Respuestas:
Esto es no correcto La actualización secuencial de este tipo solo funciona cuando la información que recibe de forma secuencial es independiente (p. Ej., Observaciones de una variable aleatoria). Si cada observación no es independiente, como en este caso, debe considerar la distribución de probabilidad conjunta. La forma correcta de actualizar sería volver a lo anterior, encontrar la probabilidad conjunta de que alguien ame las películas de terror, haya visto una película de terror en los últimos 30 días y sea dueño de un gato dado que elige o no la vainilla como su sabor favorito de helado, y luego actualizar en un solo paso.
La actualización secuencial como esta cuando sus datos no son independientes hará que su probabilidad posterior sea mucho más alta o más baja de lo que debería ser.
fuente