Hay una persona detrás de una cortina; no sé si la persona es hombre o mujer.
Sé que la persona tiene cabello largo y que el 90% de todas las personas con cabello largo son mujeres
Sé que la persona tiene un tipo sanguíneo raro AX3, y que el 80% de todas las personas con este tipo de sangre son mujeres.
¿Cuál es la probabilidad de que la persona sea mujer?
NOTA: esta formulación original se ha ampliado con dos supuestos adicionales: 1. El tipo de sangre y la longitud del cabello son independientes 2. La proporción hombre: mujer en la población en general es 50:50
(El escenario específico aquí no es tan relevante; más bien, tengo un proyecto urgente que requiere pensar en el enfoque correcto para responder esto. Mi intuición es que es una cuestión de probabilidad simple, con una respuesta definitiva simple, más bien que algo con múltiples respuestas discutibles según diferentes teorías estadísticas).
fuente
Respuestas:
A muchas personas les resulta útil pensar en términos de una "población", subgrupos dentro de ella y proporciones (en lugar de probabilidades). Esto se presta al razonamiento visual.
Explicaré las cifras en detalle, pero la intención es que una comparación rápida de las dos figuras indique de manera inmediata y convincente cómo y por qué no se puede dar una respuesta específica a la pregunta. Un examen un poco más largo sugerirá qué información adicional sería útil para determinar una respuesta o al menos obtener límites en las respuestas.
Leyenda
Trama cruzada : hembra / Fondo sólido : macho.
Arriba : pelo largo / Abajo : pelo corto.
Derecha (y coloreada) : AX3 / Izquierda (sin color) : no AX3.
Datos
El sombreado cruzado superior es el 90% del rectángulo superior ("el 90% de todas las personas con cabello largo son mujeres").
El sombreado cruzado total en el rectángulo de color derecho es el 80% de ese rectángulo ("el 80% de todas las personas con este tipo de sangre son mujeres").
Explicación
Este diagrama muestra esquemáticamente cómo la población (de todas las hembras y no hembras bajo consideración) se puede dividir simultáneamente en hembras / no hembras, AX3 / no AX3 y cabello largo / no largo ("corto"). Utiliza el área, al menos aproximadamente, para representar proporciones (hay una exageración para aclarar la imagen).
Es evidente que estas tres clasificaciones binarias crean ocho grupos posibles. Cada grupo aparece aquí.
La información dada indica que el rectángulo superior con trama cruzada (hembras de pelo largo) comprende el 90% del rectángulo superior (todas las personas de pelo largo). También establece que las partes sombreadas combinadas de los rectángulos coloreados (hembras de pelo largo con AX3 y hembras de pelo corto con AX3) comprenden el 80% de la región coloreada a la derecha (todas las personas con AX3). Se nos dice que alguien se encuentra en la esquina superior derecha (flecha): personas de pelo largo con AX3. ¿Qué proporción de este rectángulo está sombreada (hembra)?
También (implícitamente) supuse que el tipo de sangre y la longitud del cabello son independientes : la proporción del rectángulo superior (cabello largo) que está coloreado (AX3) es igual a la proporción del rectángulo inferior (cabello corto) que está coloreado (AX3). Eso es lo que significa independencia. Es una suposición justa y natural cuando se abordan preguntas como esta, pero, por supuesto, es necesario mencionarlo.
Se desconoce la posición del rectángulo sombreado superior (hembras de pelo largo). Podemos imaginarnos deslizando el rectángulo sombreado superior de lado a lado y deslizando el rectángulo sombreado inferior de lado a lado y posiblemente cambiando su ancho. Si hacemos esto para que el 80% del rectángulo coloreado permanezca sombreado, dicha alteración no cambiará ninguna de la información indicada, pero puede alterar la proporción de hembras en el rectángulo superior derecho. Evidentemente, la proporción podría estar entre 0% y 100% y aún ser coherente con la información dada, como en esta imagen:
Una fortaleza de este método es que establece la existencia de múltiples respuestas a la pregunta. Se podría traducir todo esto algebraicamente y, mediante la estipulación de probabilidades, ofrecer situaciones específicas como posibles ejemplos, pero entonces surgiría la pregunta de si tales ejemplos son realmente consistentes con los datos. Por ejemplo, si alguien sugiriera que quizás el 50% de las personas de cabello largo son AX3, al principio no es evidente que esto sea posible dada toda la información disponible. Estos diagramas (de Venn) de la población y sus subgrupos aclaran esas cosas.
fuente
Esta es una cuestión de probabilidad condicional. Sabes que la persona tiene el pelo largo y el tipo de sangre Ax3. Deje A = { 'La persona tiene el pelo largo' } Entonces buscas P ( C | A y B ) . Usted sabe que P ( C | A ) = 0.9 y P ( C | B ) = 0.8 . ¿Es eso suficiente para calcular P ( C | A y B ) ? Suponga que P ( A y B y C ) = 0.7
Ahora ambos son posibles cuando y P ( C | B ) = 0.8 . Entonces no podemos decir con certeza qué es P ( C | A y B ) .P(C|A)=0.9 P(C|B)=0.8 P(C|A and B)
fuente
Discusión fascinante! Me pregunto si también especificamos P (A) y P (B) si los rangos de P (C | A, B) no serán mucho más estrechos que el intervalo completo [0,1], simplemente debido a las muchas restricciones tenemos.
Cumpliendo con la notación presentada anteriormente:
A = el evento de que la persona tiene cabello largo
B = el evento de que la persona tiene tipo de sangre AX3
C = el evento de que esa persona es mujer
P (C | A) = 0.9
P (C | B) = 0.8
P (C) = 0.5 (es decir, supongamos una proporción igual de hombres y mujeres en la población en general)
¡no parece posible suponer que los eventos A y B son condicionalmente independientes dado C! Eso lleva directamente a una contradicción: siP(A∧B|C)=P(A|C)⋅P(B|C)=P(C|A)P(A)P(C)⋅P(C|B)P(B)P(C)
luego
4. (trivial) El rectángulo superior no se puede mover más allá del límite izquierdo y no se debe mover más allá de su superposición mínima a la izquierda.
5. (trivial) El rectángulo inferior no se puede mover más allá del límite derecho y no se debe mover más allá de su superposición máxima a la derecha.
Ejecutar un rango de valores posibles para P (A) y P (B) ( secuencia de comandos R ) genera este gráfico
En conclusión, podemos reducir el límite de la probabilidad condicional P (c | A, B) para P (A), P (B) dados
fuente
Hacer la hipótesis es que la persona detrás de una cortina es una mujer.
Hemos dado 2 piezas de evidencia, a saber:
Evidencia 1: Sabemos que la persona tiene cabello largo (y nos dicen que el 90% de todas las personas con cabello largo son mujeres)
Evidencia 2: Sabemos que la persona tiene un tipo sanguíneo raro AX3 (y nos dicen que el 80% de todas las personas con este tipo de sangre son mujeres)
Dada solo la Evidencia 1, podemos afirmar que la persona detrás de una cortina tiene un valor de probabilidad de 0.9 de ser una mujer (suponiendo una división 50:50 entre hombres y mujeres).
Con respecto a la pregunta planteada anteriormente en el hilo, a saber, "¿Estaría de acuerdo en que la respuesta debe ser MAYOR que 0.9?", Sin hacer ninguna matemática, diría intuitivamente, la respuesta debe ser "sí" (es MAYOR que 0.9). La lógica es que la Evidencia 2 respalda la evidencia (una vez más, suponiendo una división 50:50 para el número de hombres y mujeres en el mundo). Si se nos dijera que el 50% de todas las personas con sangre tipo AX3 eran mujeres, entonces la Evidencia 2 sería neutral y no influiría. Pero como se nos dice que el 80% de todas las personas con este tipo de sangre son mujeres, la Evidencia 2 respalda la evidencia y, lógicamente, debería impulsar la probabilidad final de una mujer por encima de 0.9.
Para calcular una probabilidad específica, podemos aplicar la regla de Bayes para la Evidencia 1 y luego usar la actualización Bayesiana para aplicar la Evidencia 2 a la nueva hipótesis.
Suponer:
A = el evento de que la persona tiene cabello largo
B = el evento de que la persona tiene tipo de sangre AX3
C = el evento de que la persona es mujer (suponga 50%)
Aplicando la regla de Bayes a la Evidencia 1:
P (C | A) = (P (A | C) * P (C)) / P (A)
En este caso, de nuevo si suponemos una división 50:50 entre hombres y mujeres:
P (A) = (0.5 * 0.9) + (0.5 * 0.1) = 0.5
Entonces, P (C | A) = (0.9 * 0.5) / 0.5 = 0.9 (No es sorprendente, pero sería diferente si no tuviéramos una división 50:50 entre hombres y mujeres)
Usando la actualización Bayesiana para aplicar la Evidencia 2 y conectando 0.9 como la nueva probabilidad previa, tenemos:
P (C | A Y B) = (P (B | C) * 0.9) / P (E)
Aquí, P (E) es la probabilidad de la Evidencia 2, dadas las hipótesis de que la persona ya tiene un 90% de posibilidades de ser mujer.
P (E) = (0.9 * 0.8) + (0.1 * 0.2) [esta es la ley de probabilidad total: (P (mujer) * P (AX3 | mujer) + P (hombre) * P (AX3 | hombre)] Entonces , P (E) = 0,74
Entonces, P (C | A Y B) = (0.8 * 0.9) / 0.74 = 0.97297
fuente
Reformulación y generalización de preguntas
y esoyo no contiene información relevante además de lo que está implícito en las tareas? El último conjunto de condiciones 2 y 4 es la abreviatura de la declaración de independencia
( BjdokEl | yo) = ( BjEl | yo) ( CkEl | yo),j = 0 , 1k = 0 , 1
Trate cada uno de los cuatro casos por turno.
Respuestas
Caso 1
Tenemos que especificar la distribución.( A B CEl | yo) . El problema está indeterminado, porque( A B CEl | yo) requiere ocho números, pero solo tenemos tres ecuaciones: las dos condiciones dadas y la condición de normalización.
Se ha demostrado por diversos medios esotéricos que la distribución a asignar cuando la información no determina una solución es la que, de todas las distribuciones consistentes con la información conocida, tiene la mayor entropía. Cualquier otra distribución implica que sabemos más que la información conocida, lo que por supuesto es una contradicción.
Todo lo que necesitamos hacer, por lo tanto, es asignar la distribución máxima de entropía. Esto es más fácil decirlo que hacerlo, y no he encontrado una solución general de forma cerrada. Pero se pueden encontrar soluciones particulares utilizando un optimizador numérico. Maximizamos- ∑i , j , k( AyosijdokEl | yo) ln( AyosijdokEl | yo)
sujeto a las restricciones
∑i , j , k( AyosijdokEl | yo) = 1
y
( Auna1El | sisi1yo) = u1es decir∑k( Auna1sisi1dokEl | yo)∑i , k( Ayosisi1dokEl | yo)= u1
y
( Auna2El | dodo2yo) = u2es decir∑j( Auna2sijdodo2El | yo)∑i , j( Ayosijdodo2El | yo)= u2
Ahora apliquemos esto a la pregunta. Si tenemos
luegoa = 1 , b = 1 , c = 1 , una1= 1 , si1= 1 , una2= 1 , do2= 1 , tu1= 0.9 , tu2= 0.8 , y encontramos que para la solución de entropía máxima, ( A1El | si1do1yo) ≃ 0,932 . Por lo tanto, la probabilidad de que la persona detrás de la cortina sea femenina, dado que tiene el pelo largo y el tipo de sangre AX3, es 0.932.
Caso 2
Ahora repetimos el ejercicio con la restricción adicional de que, para una persona determinada, conocer el valor desi (el estado del cabello) no afecta nuestra estimación del valor de do (el estado del tipo de sangre), y viceversa. Todo es igual que en el caso 1, excepto que hay dos restricciones adicionales en la optimización, a saber:
( B0 0El | dolyo)= ( B0 0El | yo),l = 0 , 1
es decir
∑yo( Ayosi0 0dolEl | yo)∑i , j( AyosijdolEl | yo)=∑i,k(AiB0Ck|I),l=0,1
This gives (A1|B1C1I)≃0.936 , so the probability that the person behind the curtain is female, given that he/she has long hair and blood type AX3, is 0.936.
Case 3
Now we remove the independence condition and replace it with the prior condition that there is an equal chance that a given person is male or female:(A0|I)=12i.e.∑j,k(A0BjCk|I)=12
This time (A1|B1C1I)≃0.973 , por lo que la probabilidad de que la persona detrás de la cortina sea femenina, dado que tiene el pelo largo y el tipo de sangre AX3, es 0.973.
Caso 4
Finalmente, reintroducimos las restricciones de independencia del Caso 2, y encontramos que( A1El | si1do1yo) ≃ 0,989 . Por lo tanto, la probabilidad de que la persona detrás de la cortina sea femenina, dado que tiene el cabello largo y el tipo de sangre AX3, es 0.989.
fuente
Ahora creo que, si asumimos una proporción de hombres y mujeres en la población en general, entonces hay una única respuesta indiscutible.
A = el evento de que la persona tiene cabello largo
B = el evento de que la persona tiene tipo de sangre AX3
C = el evento de que esa persona es mujer
P (C | A) = 0.9
P (C | B) = 0.8
P (C) = 0.5 (es decir, supongamos una proporción igual de hombres y mujeres en la población en general)
Entonces P (C | A y B) = [P (C | A) x P (C | B) / P (C)] / [[P (C | A) x P (C | B) / P (C )] + [[1-P (C | A)] x [1-P (C | B)] / [1-P (C)]]]
en este caso, P (C | A y B) = 0.972973
fuente
Nota: Para obtener una respuesta definitiva, las respuestas a continuación suponen que la probabilidad de que una persona, un hombre de cabello largo y una mujer de cabello largo tengan AX3 es aproximadamente la misma. Si se desea más precisión, esto debería verificarse.
Comienzas con el conocimiento de que la persona tiene el pelo largo, por lo que en este punto las probabilidades son:
Nota:
La proporción de hombres y mujeres en la población general no nos importa una vez que descubrimos que la persona tiene el pelo largo. Por ejemplo, si hubiera 1 mujer de cada cien en la población general, una persona de pelo largo seleccionada al azar seguiría siendo una mujer el 90% del tiempo.¡La relación entre mujeres y hombres sí importa! (vea la actualización a continuación para más detalles)Luego, aprendemos que la persona tiene AX3. Debido a que AX3 no está relacionado con el cabello largo, se sabe que la proporción de hombres a mujeres es 50:50, y debido a nuestra suposición de que las probabilidades son las mismas, simplemente podemos multiplicar cada lado de la probabilidad y normalizar para que la suma de los lados de la probabilidad es igual a 100:
Por lo tanto, la probabilidad de que la persona detrás de la cortina sea femenina es aproximadamente del 97.297%.
ACTUALIZAR
Aquí hay una exploración más profunda del problema:
Definiciones:
Primero, se nos dice que el 90% de las personas de cabello largo son mujeres, y el 80% de las personas con AX3 son mujeres, entonces:
Debido a que asumimos que la probabilidad de AX3 es independiente del género y el cabello largo, nuestro pfx calculado se aplicará a las mujeres con cabello largo, y pmx se aplicará a los hombres con cabello largo para encontrar el número de ellas que probablemente tengan AX3:
Por lo tanto, la proporción probable de la cantidad de mujeres con cabello largo y AX3 con respecto a la cantidad de hombres con cabello largo y AX3 es:
Debido a que se da el mismo número de 50:50, puede cancelar ambos lados y terminar con 36 hembras por cada macho. De lo contrario, hay 36 * m / f mujeres por cada hombre en el subgrupo especificado. Por ejemplo, si hubiera el doble de mujeres que hombres, habría 72 mujeres por cada hombre de los que tienen cabello largo y AX3.
fuente
98% Femenino, interpolación simple. Primera premisa 90% hembra, deja 10%, segunda premisa solo deja 2% del 10% existente, por lo tanto 98% hembra
fuente