La estadística más importante: ¿'90 por ciento de todas las mujeres sobrevivieron' o '90 por ciento de todas las que sobrevivieron eran mujeres'?

14

Considere las siguientes afirmaciones sobre el Titanic:

Asunción 1: solo hombres y mujeres estaban en el barco

Supuesto 2: había un gran número de hombres y mujeres.

Declaración 1: el 90 por ciento de todas las mujeres sobrevivieron

Declaración 2: 90 por ciento de todos los que sobrevivieron, eran mujeres

El primero indica que salvar a las mujeres probablemente era de alta prioridad (independientemente de si salvar a los hombres era)

¿Cuándo es útil la segunda estadística?

¿Podemos decir que uno de ellos es casi siempre más útil que el otro?

rahs
fuente
40
más útil para qué propósito?
Aksakal
12
Sorprendido, ninguna de estas respuestas ha mencionado la paradoja de Simpson
Nemo
3
¡Diría que eso depende de si eres mujer o no!
meh
66
La primera afirmación no tiene sentido sin una estadística comparable para los hombres.
Barmar
1
@RahulSaha Pero si el 95% de los hombres sobrevivieran, la implicación podría ser que le dieran aún más prioridad a los hombres. Es por eso que se necesita una comparación.
Barmar

Respuestas:

54

Tal como están, ninguno de los enunciados 1 o 2 es muy útil. Si el 90% de los pasajeros fueran mujeres y el 90% de las personas sobrevivieran al azar, ambas afirmaciones serían ciertas. Las declaraciones deben considerarse en el contexto de la composición general de los pasajeros. Y la posibilidad general de sobrevivir.


Supongamos que tenemos tantos hombres como mujeres, 100 cada uno. Aquí hay algunas matrices posibles de hombres (M) contra mujeres (W) y sobrevivientes (S) contra muertos (D):

  |  M |  W
------------
S | 90 | 90
------------
D | 10 | 10

El 90% de las mujeres sobrevivieron. Al igual que el 90% de los hombres. La declaración 1 es verdadera, la declaración 2 es falsa, ya que la mitad de los sobrevivientes eran mujeres. Esto es consistente con muchos sobrevivientes, pero no hay diferencia entre géneros .

  |  M |  W
------------
S | 10 | 90
------------
D | 90 | 10

El 90% de las mujeres sobrevivieron, pero solo el 10% de los hombres. El 90% de los sobrevivientes eran mujeres. Ambas declaraciones son ciertas. Esto es consistente con una diferencia entre géneros : las mujeres tenían más probabilidades de sobrevivir que los hombres.

  |  M |  W
------------
S |  1 |  9
------------
D | 99 | 91

El 9% de las mujeres sobrevivieron, pero solo el 1% de los hombres. El 90% de los sobrevivientes eran mujeres. La declaración 1 es falsa, la declaración 2 es verdadera. Esto nuevamente es consistente con una diferencia entre géneros : las mujeres tenían más probabilidades de sobrevivir que los hombres.

Stephan Kolassa
fuente
3
(or indeed, if *everyone* survived)... Si todos sobrevivieron, el 100% de todas las mujeres sobrevivieron, independientemente de las proporciones.
Bridgeburners
1
@Bridgeburners: tienes toda la razón, y me golpeó cuando estaba lejos de mi computadora. Gracias, edité mi respuesta.
Stephan Kolassa
18

A primera vista, la probabilidad condicional de sobrevivir condicional al sexo es más útil, simplemente debido a la dirección del flujo de información. El sexo de una persona se conoce antes de su estado de supervivencia, y esta probabilidad se puede utilizar en un sentido predictivo, de forma prospectiva. Además, no está influenciado por la prevalencia de las mujeres. En caso de duda, piense en la predicción.

Frank Harrell
fuente
Sí, a la vista. Entonces, solo para asegurarme de que entiendo cómo se aplica eso a las estadísticas reales en cuestión ... estás diciendo que la declaración n. ° 1 es útil porque me dice que si soy una mujer, a bordo de un gran barco de pasajeros en 1912 sucede que se hunde en aguas infestadas de iceberg, entonces la posibilidad de que sobreviva es del 90%? Y, agregando el supuesto razonable de que la tecnología y las prácticas que salvan vidas han mejorado desde entonces, ¿eso significaría que la probabilidad de que sobreviva a tal situación hoy es probablemente incluso mejor que el 90%? ¡Frio! ;-)
Don Hatch
Esos comentarios para vender más allá del objetivo descriptivo original.
Frank Harrell
¿Estás seguro de que tienes el objetivo correcto? La pregunta es, aparentemente, sobre la utilidad de estas declaraciones sobre el Titanic real, que, en realidad, no es tan útil para hacer predicciones, porque muchas cosas han cambiado desde entonces. Entonces parece que su heurística ha fallado en el primer ejemplo real que se le lanzó, ¿no es así? Eso no parece un buen comienzo. Por otro lado, tal vez el OP destinado a la pregunta Titanic ser una aproximación a la cuestión general de la misma forma se aplica a escenarios actuales que hacer tener relevancia predictiva; No lo sé.
Don Hatch
1
Del mismo modo que tengo un estudio de caso detallado sobre las probabilidades de supervivencia de los pasajeros de TItanic en mi libro Estrategias de modelado de regresión , hay mucho valor en descubrir lo que sucedió. No utilizo las probabilidades predichas de ese modelo logístico para predecir futuros Titanics, sino para descubrir patrones en el proceso de selección del bote salvavidas.
Frank Harrell
6

El primero indica que salvar a las mujeres probablemente era de alta prioridad (independientemente de si salvar a los hombres era)

La palabra "prioridad" viene del latín para "antes". Una prioridad es algo que se antecede a otra cosa (donde "antes" se usa en el sentido de "más importante"). Si dice que salvar a las mujeres era una prioridad, entonces salvar a las mujeres tiene que venir antes que otra cosa. Y la suposición natural es que lo que viene antes es salvar a los hombres. Si dices "independientemente de si salvar hombres era", entonces nos preguntamos qué ocurrió antes.

Que las mujeres tengan una alta tasa de supervivencia no dice mucho, si no sabemos cuál fue la tasa de supervivencia general. En el último barco en el que estaba, más del 90% de las mujeres sobrevivieron, pero no lo caracterizaría como una muestra de que salvar a las mujeres era una alta prioridad.

Y saber qué porcentaje de sobrevivientes eran mujeres no dice mucho sin saber qué porcentaje de personas en general eran mujeres.

Qué estadística es más útil realmente depende de la situación. Si quieres saber qué tan peligroso es algo, la tasa de mortalidad es más importante. Si desea saber qué afecta qué tan peligroso es algo, entonces el desglose porcentual de las víctimas es importante.

Acumulacion
fuente
2
Buena crítica :-) "En el último barco en el que estuve, más del 90% de las mujeres sobrevivieron, pero no lo caracterizaría como una muestra de que salvar a las mujeres era una alta prioridad". Claro que sí ... ¡alta prioridad en comparación con tirarlos por la borda! Claro, esta es una interpretación absurda de "alta prioridad", pero como el OP ha descartado la interpretación de "mayor prioridad que salvar a los hombres", todo lo que nos queda es interpretaciones absurdas.
Don Hatch
3

Posiblemente sea útil para nosotros examinar cómo se relacionan estas probabilidades.

Sea el evento de que una persona sea mujer, y sea S el evento de que una persona sobrevivió.WS

Declaración 1:

P(S|W)=0.9

Declaración 2:

P(W|S)=0.9

El teorema de Bayes ilustra cómo se relacionan estas declaraciones de probabilidad.

P(S|W)=P(W|S)P(S)P(W)

P(S)P(W)

P(S)P(W)

Knrumsey
fuente
3
También diría, por el contrario a su conclusión, que si no se conoce ni P (S) ni P (W), entonces tanto P (S | W) como P (W | S) sufren la misma frustrante falta de utilidad. Todavía no tengo una idea clara de lo que se puede decir si se conoce exactamente uno de P (S) y P (W).
Don Hatch el
P(W)=0.5
1
Sí, eso parece correcto, y el veredicto parece ser que la información es lamentablemente inadecuada incluso teniendo en cuenta eso. Debo decir que cada vez que empiezo a pensar qué información puedo extraer de solo P (W | S) o solo P (S | W), incluso agregando P (W) o lo que sea, termino pensando "por qué demonios estoy Estoy pensando en esto, ¿por qué me dieron solo esos porcentajes? Solo muéstrame la tabla completa ".
Don Hatch
3

Depende de lo que uno considere útil.

P(S|W)>P(S|M)

Por otro lado, si se pregunta por qué las historias de sobrevivientes son principalmente de mujeres, entonces la declaración 2 explicaría eso, haciendo que la declaración 2 sea útil incluso en ausencia de otra información.

No puedo pensar en nada, la declaración 1 es útil fuera de contexto. Ciertamente no dice nada sobre la prioridad dada a salvar mujeres, en comparación con cualquier otra cosa. Lo único que la declaración 1 hace por mí es que me hace decir "dime más".

Don Hatch
fuente
0

En la superficie (o en aislamiento de la realidad) ambas declaraciones parecen ser igualmente inútiles para el objetivo del estado. Sin embargo, considerando el contexto, la segunda declaración es claramente más útil.

Declaración 2

Veamos qué podemos extraer de la segunda declaración. La proporción de mujeresw among all survived is:

w=pagX/ /(pagX+(1-pag)z)
dónde pag - proporción de mujeres entre pasajeros, X y zson las probabilidades de supervivencia de mujeres y hombres. El denominador es la tasa de supervivencia total.

Estamos probando hipo H0 0:X>z

Reescribamos la ecuación para obtener las condiciones necesarias para H0 0:

(1-w)pagX=w(1-pag)z
x=w(1p)z/((1w)p)
For H0 to hold we have:
x=w(1p)z/((1w)p)>z
w(1p)>(1w)p
0.9(1p)>0.1p
1p>p/9
p<0.9

So, for your hypo that women were more likely to survive, all you need is to check that there were less than 90% women among the passengers. This is consistent with your assumption 2, which seems to imply that p1/2. Hence, I declare that statement 2 all but asserts that women were more likely to survive, i.e. it's quite useful for your goal.

Statement 1

The first statement is truly useless in isolation, but has a limited use in the context. If we pretend we know nothing about the event, then saying that x=0.9 tells us nothing about z, and whether x>z?

However, from that little that I know about the event - I haven't seen the movie - it seems unlikely that xz. Why?

We know from Assumption 2 that p1/2, so the total survival rate is px+(1p)z. If we assume that xz and p1/2 we get

px+(1p)zx=0.9
In other words 90% of all passengers survived, which doesn't ring true to me. Would they make a movie and talk about it for 100 years if 90% of passengers survived? So, it must be that x>>z and less than half of passengers made it.

Conclusion

Diría que ambas declaraciones respaldan su hipo de que las mujeres tenían más probabilidades de sobrevivir que los hombres, pero la Declaración 1 lo hace de manera bastante débil, mientras que la Declaración 2 en combinación con suposiciones casi seguramente establece su hipo como un hecho.

Aksakal
fuente