¿Cuál es la intuición detrás de la fórmula para la probabilidad condicional?

30

La fórmula para la probabilidad condicional de que ocurra dado que ha sucedido es:AB

P(A | B)=P(AB)P(B).

Mi libro de texto explica la intuición detrás de esto en términos de un diagrama de Venn.

ingrese la descripción de la imagen aquí

Dado que ha ocurrido, la única manera de que ocurra es que el evento caiga en la intersección de y .BAAB

En ese caso, la probabilidad de sería simplemente igual a la probabilidad de intersección , ya que esa es la única forma en que podría suceder el evento? ¿Qué me estoy perdiendo?P(A|B)Asi

WorldGov
fuente
77
¿Tiene una comprensión intuitiva de lo que "es" la probabilidad condicional, si olvidamos por un tiempo cómo calcularlo?
Juho Kokkala 01 de
44
Al condicionar B (el evento que ha ocurrido), restringe su espacio de resultados desde (todo el plano) a B solamente. Olvida todo lo que está fuera de B. La probabilidad del evento A debe medirse con respecto a B, ya que la probabilidad está entre 0 y 1.Ω
Vladislavs Dovgalecs
1
Te estás perdiendo el hecho de que la parte blanca del círculo del Evento A ya no es parte de la población una vez que sabes que ocurrió el Evento B.
Monty Harder
44
Las intuiciones no son exactas, ni son singulares, entonces, ¿por qué preguntar sobre la intuición (singular) exacta? Una intuición útil es suficiente, pero no todas las sugerencias serán útiles para todas las personas.
John Coleman

Respuestas:

23

Se da una buena intuición de que B ocurrió, con o sin A, ¿cuál es la probabilidad de A? Es decir, ahora estamos en el universo en el que ocurrió B: el círculo completo a la derecha. En ese círculo, la probabilidad de A es el área de la intersección de A B dividida por el área del círculo.

usuario0
fuente
55
En otras palabras, te digo que sucedió, lo que significa que vivimos en el círculo B. Dentro de ese mundo, ¿qué porcentaje de eventos están en la lente ( A B )? BsiUNAsi
MichaelChirico
18

Lo pensaría así: doy por sentado que entiendes la intuición hasta que:

Dado que B ha ocurrido, la única forma de que A ocurra es que el par caiga en la intersección de A y B.

y voy a comentar la segunda imagen que publicaste:

  1. Imagine que todo el rectángulo blanco es su espacio muestral .Ω

    Asignar una probabilidad a un conjunto significa que está midiendo en cierto sentido ese conjunto. Es lo mismo que si midieras el área del rectángulo, pero la probabilidad es un tipo diferente de medida que tiene propiedades específicas (no diré nada más sobre esto).

  2. Sabes que y esto se interpreta así:P(Ω)=1

    representa todos los eventos que podrían suceder y algo tiene que suceder, por lo que tenemos una probabilidad del 100% de que algo suceda.Ω

  3. Análogamente, el conjunto tiene una probabilidad P ( A ) que es proporcional a la probabilidad del espacio muestral Ω . Hablando gráficamente, ve que A Ω, por lo tanto, la medida de A (su probabilidad P ( A ) ) tiene que ser menor que P ( Ω ) . El mismo razonamiento es válido para el conjunto A B . Este conjunto se puede medir y su medida es P ( A B ) .UNAP(A)ΩUNAΩUNAPAGS(UNA)PAGS(Ω)UNAsiPAGS(UNAsi)

  4. Si ahora te dicen que ha sucedido, debes pensar como si B fuera tu "nuevo" Ω . Si B es su "nueva" Ω entonces usted puede estar 100% seguro de que todo lo que sucede en el conjunto B .sisiΩsiΩsi

    ¿Y qué significa eso? Esto significa que ahora, en el "nuevo" concurso de , y usted tiene que cambiar la escala de todas las medidas de probabilidad, teniendo en cuenta que tienen que ser expresada en términos de la "nueva" muestra el espacio B . Es una proporción simple.PAGS(sisi)=1si

    Tu intuición es casi correcta cuando dices eso:

la probabilidad de P (A | B) sería simplemente igual a la probabilidad de una intersección B

y el "casi" se debe al hecho de que ahora su espacio de muestra ha cambiado (ahora es ) y desea reescalar P ( A B ) en consecuencia.siPAGS(UNAsi)

  1. es su P ( A B ) en el nuevo mundo en el que el espacio muestral es ahora B . En palabras, lo diría así (e intente visualizarlo en la imagen con los conjuntos):PAGS(UNAsi)PAGS(UNAsi)si

    En el nuevo mundo, la razón entre la medida de y la medida de A B debe ser la misma que la razón entre la medida de Ω y la medida de A BsiUNAsiΩUNAsi

  2. Por último, traduzca esto en lenguaje matemático (una proporción simple):

PAGS(si):PAGS(UNAsi)=PAGS(Ω):PAGS(UNAsi)

y como se deduce que:PAGS(Ω)=1

PAGS(UNAsi)=PAGS(UNAsi):PAGS(si)
Núcleo duro
fuente
5

Verá la intuición fácilmente pensando en el siguiente problema.

Supongamos que tienes 10 bolas: 6 negras y 4 rojas. De las bolas negras 3 son impresionantes y de las bolas rojas solo 1 es impresionante. ¿Qué posibilidades hay de que una bola negra también sea impresionante?

La respuesta es muy fácil: es 50%, porque tenemos 3 bolas negras impresionantes de un total de 6 bolas negras.

Así es como se asignan las probabilidades a nuestro problema:

  • 3 bolas que son negras e impresionantes corresponden a P(AB)
  • 6 bolas que son negras corresponden a P(B)
  • probabilidad de que una pelota sea impresionante cuando SABEMOS que es negra: P(AB)
Aksakal
fuente
1
¿No tendría más sentido escribir lugar de P ( B ) = 6 ? n(B)=6P(B)=6
Silverfish
@Silverfish Sería más preciso, pero buscaba la intuición en este caso
Aksakal
4

Para una intuición básica de la fórmula de probabilidad condicional, siempre me gusta usar una tabla de dos vías. Digamos que hay 150 estudiantes en un grupo de año, de los cuales 80 son mujeres y 70 hombres, cada uno de los cuales debe estudiar exactamente un curso de idiomas. La tabla bidireccional de estudiantes que toman diferentes cursos es:

        | French   German   Italian  | Total
-------- --------------------------- -------
Male    |     30       20        20  |    70
Female  |     25       15        40  |    80
-------- --------------------------- -------
Total   |     55       35        60  |   150

Dado que un estudiante toma el curso de italiano, ¿cuál es la probabilidad de que sea mujer? Bueno, el curso de italiano tiene 60 estudiantes, de los cuales 40 son mujeres que estudian italiano, por lo que la probabilidad debe ser:

PAGS(F | italiano)=norte(Fitaliano)norte(italiano)=4060 60=23

donde es la cardinalidad del conjunto A , es decir, el número de elementos que contiene. Tenga en cuenta que necesitábamos usar n ( F italiano ) en el numerador y no solo n ( F ) , porque este último habría incluido a las 80 mujeres, incluidas las otras 40 que no estudian italiano.norte(UNA)UNAnorte(Fitaliano)n(F)

Pero si la pregunta se voltea, ¿cuál es la probabilidad de que un estudiante tome el curso de italiano, dado que son mujeres? Luego, 40 de las 80 alumnas toman el curso de italiano, por lo que tenemos:

P(Italian|F)=n(ItalianF)n(F)=4080=12

Espero que esto proporcione intuición de por qué

P(A|B)=n(AB)n(B)

Comprender por qué la fracción se puede escribir con probabilidades en lugar de cardinalidades es una cuestión de fracciones equivalentes . Por ejemplo, volvamos a la probabilidad de que un estudiante sea mujer dado que está estudiando italiano. Hay 150 estudiantes en total, por lo que la probabilidad de que un estudiante sea mujer y estudie italiano es 40/150 (esta es una probabilidad "conjunta") y la probabilidad de que un estudiante estudie italiano es 60/150 (esta es una probabilidad "marginal" ) Tenga en cuenta que dividir la probabilidad conjunta por la probabilidad marginal da:

P(FItalian)P(Italian)=40/15060/150=4060=n(FItalian)n(Italian)=P(F|Italian)

(Para ver que las fracciones son equivalentes, multiplicar el numerador y el denominador por 150 elimina el "/ 150" en cada uno).

En términos más generales, si su espacio de muestreo tiene cardinalidad n ( Ω ) , en este ejemplo la cardinalidad era 150, encontramos queΩn(Ω)

P(A|B)=n(AB)n(B)=n(AB)/n(Ω)n(B)/n(Ω)=P(AB)P(B)
Lepisma
fuente
3

Yo revertiría la lógica. La probabilidad de que tanto como B sea:AB

  1. La probabilidad de que ocurriera , y eso dado que A sucedió.BA
  2. Los mismos roles pero inversos para y BAB

Esto te dará

p(AB)=p(B)p(AB)

Si usted está buscando una negativa a su sugerencia, es si bien es cierto que la probabilidad de dado B está contenido en la probabilidad de que el producto, el espacio que está rodando los dados en es más pequeño que el espacio de probabilidad inicial - usted sabe seguro que estás "en" B , por lo tanto, divides por el tamaño del nuevo espacio.ABB

kabanus
fuente
2

El diagrama de Venn no representa la probabilidad, representa la medida de subconjuntos del espacio de eventos. Una probabilidad es la razón entre dos medidas; la probabilidad de X es el tamaño de "todo lo que constituye X" dividido el tamaño de "todos los eventos considerados". Cada vez que esté calculando una probabilidad, necesita tanto un "espacio de éxito" como un "espacio de población". No se puede calcular una probabilidad basada solo en "cuán grande" es el espacio de éxito. Por ejemplo, la probabilidad de lanzar un siete con dos dados es el número de formas de lanzar un siete dividido por el número total de formas de lanzar dos dados. El simple hecho de saber la cantidad de formas de sacar un siete no es suficiente para calcular la probabilidad. P (A | B) es la razón de la medida de "tanto A como B suceden" espacio y la medida del espacio "B sucede". Eso es lo que el "|" significa: significa "hacer de lo que viene después de esto el espacio poblacional".

Acumulacion
fuente
2

Creo que la mejor manera de pensar en esto es dibujando caminos paso a paso.

Describamos el Evento B como sacar un en un dado justo: se puede demostrar fácilmente que tiene probabilidad 14 . Ahora describamos el Evento A como sacar un As de un mazo de cartas estándar de 52 cartas: se puede demostrar fácilmente que tiene probabilidad116 .113

Ejecutemos ahora un experimento donde tiramos un dado y luego elegimos una carta. Entonces sería la probabilidad de que saquemos un As, dado que ya hemos sacado un 4 . Si miras la imagen, este sería el 1P(A|B)4 camino (subir) y luego el116 camino (subir de nuevo).113

Intuitivamente, el espacio de probabilidad total es lo que ya se nos ha dado: sacar el . Podemos ignorar el 14 y12113 el camino descendente inicial conduce, ya que fue DADO que lanzamos un4. Por ley de multiplicación, nuestro espacio total es entonces(112134.(16×113)+(16×1213)

¿Cuál es la probabilidad de que saquemos un As, DADO que sacamos un ? La respuesta al usar la ruta es ( 14, que luego debemos dividir por el espacio total. Entonces obtenemosP(A(16×113)

P(A|B)=16×113(16×113)+(16×1213).

enter image description here

vidrioso
fuente
2
Me preguntaba para qué era el voto negativo, porque los árboles de probabilidad pueden ser muy instructivos. Quizás la preocupación es que el uso de eventos independientes para la ilustración pierde el punto de probabilidad condicional, que es que la distribución de probabilidad puede cambiar dependiendo del evento de condicionamiento. Usar una ilustración menos superficial puede ayudar.
whuber
1

Piénselo en términos de conteos. La probabilidad marginal es cuántas veces se produjo A dividido por el tamaño de la muestra. La probabilidad conjunta de A y B es cuántas veces ocurrió A junto con B dividido por el tamaño de la muestra. La probabilidad condicional de A dado B es cuántas veces ocurrió A junto con B dividido por cuántas veces ocurrió B, es decir, solo las A "dentro" de B.

Puedes encontrar una buena ilustración visual en este blog , que lo muestra usando bloques de Lego.

Tim
fuente
1

En el momento de escribir, hay alrededor de 10 respuestas que parecen perder el punto más importante: usted tiene toda la razón.

En ese caso, ¿no sería la probabilidad de P (A | B) simplemente igual a la probabilidad de una intersección B, ya que esa es la única forma en que podría ocurrir el evento?

P(A|B)P(AB)

¿Qué me estoy perdiendo?

P(BB)=P(B)P(B)AP(A|B)

Michael Le Barbier Grünewald
fuente
0

Siento que es más intuitivo cuando tenemos datos concretos para estimar las probabilidades.

Usemos los mtcarsdatos como ejemplo, los datos se ven así (solo usamos el número de cilindros y el tipo de transmisión).

> mtcars[,c("am","cyl")]
                    am cyl
Mazda RX4            1   6
Mazda RX4 Wag        1   6
Datsun 710           1   4
Hornet 4 Drive       0   6
...  
...
Ford Pantera L       1   8
Ferrari Dino         1   6
Maserati Bora        1   8
Volvo 142E           1   4

Podemos calcular la distribución conjunta en dos variables haciendo una tabla cruzada:

> prop.table(table(mtcars$cyl,mtcars$am))

          0       1
  4 0.09375 0.25000
  6 0.12500 0.09375
  8 0.37500 0.06250

La probabilidad conjunta significa que queremos considerar dos variables al mismo tiempo. Por ejemplo, preguntaremos cuántos automóviles son de 4 cilindros y transmisión manual.

Ahora, llegamos a la probabilidad condicional. Encontré que la forma más intuitiva de explicar la probabilidad condicional es usar el término filtrado de datos.

P(am=1|cyl=4)

> cyl_4_cars=subset(mtcars, cyl==4)
> prop.table(table(cyl_4_cars$am))

        0         1 
0.2727273 0.7272727 

Esto significa que solo nos importan los automóviles que tengan 4 cilindros. Entonces filtramos datos sobre eso. Después de filtrar, verificamos cuántos de ellos son de transmisión manual.

Puede comparar esto condicional con la articulación que mencioné anteriormente para sentir las diferencias.

Haitao Du
fuente
0

Si Afuera un superconjunto de Bla probabilidad de que Aocurra siempre es 1 dado que Bsucedió, es decir P(A|B) = 1. Sin embargo, Bsí mismo puede tener una probabilidad mucho menor que 1.

Considere el siguiente ejemplo:

  • dado xes un número natural en 1..100,
  • Aes ' xes un número par'
  • Bes ' xes divisible por 10'

entonces tenemos:

  • P(A) es 0.5
  • P(B) es 0.1

Si sabemos que xes divisible por 10 ( xes decir, está dentro B), sabemos que también es un número par ( xes decir, está dentro A) P(A|B) = 1.

De la regla de Bayes tenemos:

PAGS(UNAEl |si)=PAGS(UNAsi)PAGS(si)

PAGS(UNAsi)xxPAGS(UNAsi)=PAGS(si)PAGS(UNAEl |si)=PAGS(si)/ /PAGS(si)=1.


Para un ejemplo no degenerado, considere, por ejemplo, Aes ' xes divisible por 7' y Bes ' xes divisible por 3'. Entonces P(A|B)es equivalente a 'dado que sabemos que xes divisible por 3, ¿cuál es la probabilidad de que (también) sea divisible por 7?'. O, de manera equivalente, '¿Qué fracción de los números 3, 6, ..., 99 son divisibles por 7'?

Andre Holzner
fuente
0

Creo que su declaración inicial puede ser un malentendido.

Tu escribiste:

La fórmula para la probabilidad condicional de que ocurra A, una vez que B ha sucedido es:

De su fraseo, puede sonar como si hubiera 2 eventos "Primero sucedió B, y luego queremos calcular la probabilidad de que A suceda".

Este no es el caso. (Lo siguiente es válido si hubo un malentendido o no).

Tenemos solo 1 evento, que se describe por una de las 4 posibilidades:

  1. ninguno UNA ni si;

  2. sólo UNAno si;

  3. sólo sino UNA;

  4. ambos UNA y si.

Poniendo algunos números de ejemplo, digamos

PAGS(UNA)=0,5,PAGS(si)=0,5,yA y B son independientes.

Resulta que

PAGS(A y B)=0.25yPAGS(ni a ni B)=0.25.

Inicialmente (sin conocimiento del evento), sabíamos PAGS(AB)=0.25.

Pero una vez que sabemos eso si ha sucedido, estamos en un espacio diferente. PAGS(AB) es la mitad de PAGS(si) entonces la probabilidad de UNA dado si, PAGS(UNAEl |si), es 0,5. No lo es0.25, sabiendo que si pasó.

usuario985366
fuente
0

La probabilidad de condicionamiento NO es igual a la probabilidad de intersección. Aquí hay una respuesta intuitiva:

1) PAGS(siUNA): "Lo sabemos UNAsucedió ¿Cuál es la probabilidad de quesi ¿pasará?"

2: PAGS(UNAsi) : "No sabemos si UNA o sisucedió. ¿Cuál es la probabilidad de que ambos sucedan?

La diferencia es que en el primero, tenemos información adicional (sabemos que UNAocurre primero). En el segundo no sabemos nada.

Comenzando con la probabilidad del segundo, podemos deducir la probabilidad del primero.

El evento que ambos UNA y si ocurrirá puede ocurrir de dos maneras:

1) La probabilidad de UNA Y la probabilidad de si Dado que UNA sucedió

2) La probabilidad de si Y la probabilidad de UNA Dado que si sucedió

Resulta que ambas situaciones son igual de suceder. (No puedo encontrar la razón intuitiva). Por lo tanto, debemos sopesar ambos escenarios con0,5

PAGS(UNAsi)=1/ /2PAGS(UNA(siUNA))+1/ /2PAGS(si(UNAsi))

Ahora usa eso UNA y siUNA son independientes y recuerde que ambos escenarios tienen la misma probabilidad de suceder.

PAGS(UNAsi)=PAGS(UNA)PAGS(siUNA)

Tadaaa ... ¡ahora aísla la probabilidad del condicionamiento!

por cierto. Me encantaría que alguien pudiera explicar por qué los escenarios 1 y 2 son iguales. La clave está ahí, imo.

OBIEK
fuente