Me encontré con una pregunta en la prueba de aptitud de la entrevista de trabajo para el pensamiento crítico. Es algo así:
La República Zorganiana tiene algunas costumbres muy extrañas. Las parejas solo desean tener hijas, ya que solo las mujeres pueden heredar la riqueza de la familia, por lo que si tienen un hijo varón, seguirán teniendo más hijos hasta que tengan una niña. Si tienen una niña, dejan de tener hijos. ¿Cuál es la relación entre niñas y niños en Zorgania?
No estoy de acuerdo con la respuesta modelo dada por el escritor de la pregunta, que es aproximadamente 1: 1. La justificación fue que cualquier nacimiento siempre tendrá un 50% de posibilidades de ser hombre o mujer.
¿Puede convencerme con una respuesta matemática más vigorosa de si es el número de niñas y B es el número de niños en el país?
fuente
Respuestas:
Comience sin hijos
repetir paso
{
Cada pareja que todavía tiene hijos tiene un hijo. La mitad de las parejas tienen hombres y la otra mitad mujeres.
Aquellas parejas que tienen mujeres dejan de tener hijos.
}
En cada paso obtienes un número par de hombres y mujeres y el número de parejas que tienen hijos se reduce a la mitad (es decir, aquellos que tenían mujeres no tendrán hijos en el siguiente paso)
Por lo tanto, en cualquier momento tiene el mismo número de hombres y mujeres y, de paso a paso, el número de parejas que tienen hijos se reduce a la mitad. A medida que se crean más parejas, la misma situación se repite y todas las demás cosas son iguales, la población contendrá el mismo número de hombres y mujeres.
fuente
Deje que sea el número de niños en una familia. Tan pronto como tienen una niña, se detienen, así queX
Si es la probabilidad de que un niño sea un niño y si los géneros son independientes entre los niños, la probabilidad de que una familia termine teniendo k niños es P ( X = k ) = p k ⋅ ( 1 - p ) , es decir , la probabilidad de tener k niños y luego tener una niña. El número esperado de niños es E X = ∞ ∑ k = 0 k p k ⋅ ( 1 - p ) =p k
Si , tenemos que E X = 0,5 / 0,5 . Es decir, la familia promedio tiene 1 niño. Ya sabemos que todas las familias tienen 1 niña, por lo que la relación será con el tiempo incluso a ser 1 / 1 = 1 .p = 1 / 2 miX= 0.5 / 0.5 1 / 1 = 1
La variable aleatoria se conoce como una variable aleatoria geométrica .X
fuente
p
es lo mismo para todas las familias. Si, en cambio, suponemos que algunas parejas tienen más probabilidades de tener hijos que otras ( es decir , quep
es mayor), entonces el resultado cambia, incluso si el valor promedio dep
todavía es 0.5. (Aún así, esta es una excelente explicación de las estadísticas básicas subyacentes.)Resumen
El modelo simple de que todos los nacimientos independientemente tienen un 50% de posibilidades de ser niñas no es realista y, como resultado, excepcional. Tan pronto como consideramos las consecuencias de la variación en los resultados entre la población, la respuesta es que la relación niña: niño puede ser cualquiera valor que no exceda 1: 1. (En realidad, probablemente todavía estaría cerca de 1: 1, pero eso es una cuestión que el análisis de datos debe determinar).
Debido a que estas dos respuestas en conflicto se obtienen asumiendo independencia estadística de los resultados del nacimiento, una apelación a la independencia es una explicación insuficiente. Por lo tanto, parece que la variación (en las posibilidades de nacimientos femeninos) es la idea clave detrás de la paradoja.
Introducción
Una paradoja ocurre cuando creemos que tenemos buenas razones para creer algo, pero nos enfrentamos a un argumento sólido de lo contrario.
Una resolución satisfactoria a una paradoja nos ayuda a comprender lo que estaba bien y lo que pudo haber estado mal en ambos argumentos. Como suele ser el caso en probabilidad y estadística, ambos argumentos pueden ser válidos: la resolución dependerá de las diferencias entre los supuestos que se hacen implícitamente. Comparar estos supuestos diferentes puede ayudarnos a identificar qué aspectos de la situación conducen a diferentes respuestas. Identificar estos aspectos, mantengo, es lo que más debemos valorar.
Supuestos
Como se desprende de todas las respuestas publicadas hasta ahora, es natural suponer que los nacimientos de mujeres se producen de forma independiente y con constantes las probabilidades de . Es bien sabido que ninguno de los supuestos es realmente cierto, pero parecería que ligeras desviaciones de estos supuestos no deberían afectar mucho la respuesta. Dejanos ver. Para este fin, considere el siguiente modelo más general y más realista:1 / 2
En cada familia la probabilidad de un parto femenino es una constante p i , independientemente del orden de nacimiento.yo pagsyo
En ausencia de una regla de detención, el número esperado de nacimientos femeninos en la población debe ser cercano al número esperado de nacimientos masculinos.
Todos los resultados de nacimiento son (estadísticamente) independientes.
Este todavía no es un modelo completamente realista de nacimientos humanos, en el cual la puede variar con la edad de los padres (particularmente la madre). Sin embargo, es lo suficientemente realista y flexible como para proporcionar una resolución satisfactoria de la paradoja que se aplicará incluso a modelos más generales.pagsyo
Análisis
Aunque es interesante realizar un análisis exhaustivo de este modelo, los puntos principales se hacen evidentes incluso cuando se considera una versión específica, simple (pero algo extrema). Supongamos que la población tiene familias. En la mitad de ellos la posibilidad de un nacimiento femenino es 2 / 3 y en la otra mitad el riesgo de un nacimiento femenino es 1 / 3 . Esto claramente satisface la condición (2): el número esperado de nacimientos de mujeres y hombres es el mismo.2 N 2 / 3 1 / 3
Considere esas primeras familias. Razonemos en términos de expectativas, entendiendo que los resultados reales serán aleatorios y, por lo tanto, variarán un poco de las expectativas. (La idea detrás del siguiente análisis se transmitió de manera más breve y simple en la respuesta original que aparece al final de esta publicación).norte
Sea el número esperado de nacimientos femeninos en una población de N con probabilidad constante de nacimientos femeninos p . Obviamente, esto es proporcional a N y así se puede escribir f ( N , p ) = f ( p ) N . Del mismo modo, sea m ( p ) N el número esperado de nacimientos masculinos.F( N, p ) norte pags norte F( N, p ) = f( p ) N m ( p ) N
Las primeras familias producen una niña y se detienen. Las otras ( 1 - p ) familias N producen un niño y continúan teniendo hijos. Eso es p N niñas y ( 1 - p ) N niños hasta ahora.p N (1−p)N pN (1−p)N
Las familias restantes están en la misma posición que antes:(1−p)N el supuesto de independencia (3) implica que lo que experimentan en el futuro no se ve afectado por el hecho de que su primogénito era un hijo. Por lo tanto, estas familias producirán más niñas ym ( p ) [ ( 1 - p ) N ] más niños.f(p)[(1−p)N] m(p)[(1−p)N]
Sumando las chicas totales y chicos totales y en comparación con sus valores asumidos de y m ( p ) N da ecuacionesf(p)N m(p)N
con soluciones
El número esperado de niñas en los primeros familias, con p = 2 / 3 , por lo tanto es f ( 2 / 3 ) N = N y el número esperado de los niños es m ( 2 / 3 ) N = N / 2 .N p=2/3 f(2/3)N=N m(2/3)N=N/2
¡La regla de detención favorece a los niños!
Resolución
Si su intuición es que detenerse con la primera niña debería producir más niños en la población, entonces está en lo correcto, como lo muestra este ejemplo. Para estar en lo correcto, todo lo que necesita es que la probabilidad de dar a luz a una niña varía (incluso solo un poco) entre las familias.
La respuesta "oficial", que la proporción debe ser cercana a 1: 1, requiere varios supuestos poco realistas y es sensible a ellos: supone que no puede haber variación entre las familias y todos los nacimientos deben ser independientes.
Comentarios
La idea clave destacada por este análisis es que la variación dentro de la población tiene consecuencias importantes. La independencia de los nacimientos, aunque es una suposición simplificadora utilizada para cada análisis en este hilo, no resuelve la paradoja, porque (dependiendo de las otras suposiciones) es consistente tanto con la respuesta oficial como con su opuesto.
Si reemplazamos el género por alguna otra expresión genética, entonces obtenemos una explicación estadística simple de la selección natural : una regla que limita diferencialmente el número de descendientes en función de su composición genética puede alterar sistemáticamente las proporciones de esos genes en la próxima generación. Cuando el gen no está ligado al sexo, incluso un pequeño efecto se propagará de forma multiplicativa a través de generaciones sucesivas y puede aumentar rápidamente.
Respuesta original
Cada niño tiene un orden de nacimiento: primogénito, segundo nacido, etc.
Suponiendo probabilidades iguales de nacimientos masculinos y femeninos y sin correlaciones entre los géneros, la Ley Débil de Números Grandes afirma que habrá una proporción cercana a 1: 1 de mujeres primogénitas a hombres. Por la misma razón, habrá una proporción cercana a 1: 1 de segundas hembras a machos, y así sucesivamente. Debido a que estas proporciones son constantemente 1: 1, la proporción general también debe ser 1: 1, independientemente de cuáles sean las frecuencias relativas de los órdenes de nacimiento en la población.
fuente
El nacimiento de cada niño es un evento independiente con P = 0.5 para un niño y P = 0.5 para una niña. Los otros detalles (como las decisiones familiares) solo lo distraen de este hecho. La respuesta, entonces, es que la relación es 1: 1 .
Para exponer sobre esto: imagine que en lugar de tener hijos, está lanzando una moneda justa (P (cara) = 0.5) hasta obtener una "cara". Digamos que la Familia A lanza la moneda y obtiene la secuencia de [colas, colas, caras]. Entonces la familia B lanza la moneda y obtiene una cola. Ahora, ¿cuál es la probabilidad de que el próximo sea cara? Todavía 0.5 , porque eso es lo que significa independiente . Si tuviera que hacer esto con 1000 familias (lo que significa que surgieron 1000 caras), el número total esperado de colas es 1000, porque cada giro (evento) fue completamente independiente.
Algunas cosas no son independientes, como la secuencia dentro de una familia: la probabilidad de la secuencia [cabezas, cabezas] es 0, no igual a [colas, colas] (0.25). Pero como la pregunta no es sobre esto, es irrelevante.
fuente
Imagine tirar una moneda justa hasta que observe una cabeza. ¿Cuántas colas arrojas?
El número esperado de colas se calcula fácilmente * para que sea 1.
El número de cabezas es siempre 1.
* si esto no está claro para usted, vea el 'resumen de la prueba' aquí
fuente
Las parejas con exactamente una niña y sin niños son las más comunes
La razón por la que todo esto funciona es porque la probabilidad del único escenario en el que hay más niñas es mucho mayor que los escenarios en los que hay más niños. Y los escenarios donde hay muchos más niños tienen probabilidades muy bajas. La forma específica en que funciona se ilustra a continuación
Puedes ver más o menos a dónde va esto en este momento, el total de las niñas y los niños sumarán uno.
Chicas esperadas de una pareja=∑∞n=1(12n)=1
=∑∞n=1(n−1n2)=1
Limitar soluciones de wolfram
Cualquier nacimiento, cualquiera que sea la familia, tiene una probabilidad de 50:50 de ser niño o niña.
Todo esto tiene sentido intrínseco porque (por más que lo intenten las parejas) no se puede controlar la probabilidad de que un nacimiento específico sea un niño o una niña. No importa si un niño nace de una pareja sin hijos o de una familia de cien niños; la probabilidad es de 50:50, por lo que si cada nacimiento individual tiene una probabilidad de 50:50, siempre debe tener la mitad de niños y la mitad de niñas. Y no importa cómo barajes los nacimientos entre familias; no vas a afectar eso.
Esto funciona para cualquier regla 1
Debido a la posibilidad de 50:50 de cualquier parto, la proporción terminará en 1: 1 para cualquier regla (razonable 1 ) que se te ocurra. Por ejemplo, la siguiente regla similar también funciona incluso
En este caso, el total de hijos esperados se calcula más fácilmente
Chicas esperadas de una pareja=0.5⋅1+0.25⋅1=0.75
=0.25⋅1+0.25⋅2=0.75
1 Como dije, esto funciona para cualquier regla razonable que pueda existir en el mundo real. Una regla irrazonable sería aquella en la que los hijos esperados por pareja eran infinitos. Por ejemplo, "Los padres solo dejan de tener hijos cuando tienen el doble de niños que de niñas", podemos usar las mismas técnicas que antes para mostrar que esta regla les da a los niños infinitos:
Entonces podemos encontrar el número de padres con un número finito de hijos
Número esperado de padres con hijos finitos=∑∞m=1(11/(3m)2)=π254=0.18277….
Limitar soluciones de wolfram
Entonces, de eso podemos establecer que el 82% de los padres tendrían un número infinito de hijos; desde el punto de vista de la planificación urbana, esto probablemente causaría dificultades y demuestra que esta condición no podría existir en el mundo real.
fuente
También puedes usar la simulación:
fuente
mean(rgeom(10000, 0.5))
Mapear esto me ayudó a ver mejor cómo la proporción de la población de nacimiento (se supone que es 1: 1) y la proporción de la población de niños sería de 1: 1. Si bien algunas familias tendrían varios niños pero solo una niña, lo que inicialmente me llevó a pensar que habría más niños que niñas, el número de esas familias no sería mayor al 50% y disminuiría a la mitad con cada niño adicional, mientras que el número de familias de una sola niña sería del 50%. El número de niños y niñas se equilibrarían entre sí. Vea los totales de 175 en la parte inferior.
fuente
Lo que obtuviste fue la respuesta más simple y correcta. Si la probabilidad de que un niño recién nacido sea un niño es p, y los accidentes desafortunados no satisfacen a los niños del género incorrecto, entonces no importa si los padres toman decisiones sobre tener más hijos en función del género del niño. Si el número de niños es N y N es grande, puede esperar sobre p * N niños. No hay necesidad de un cálculo más complicado.
Ciertamente hay otras preguntas, como "¿cuál es la probabilidad de que el hijo menor de una familia con hijos sea un niño" o "cuál es la probabilidad de que el hijo mayor de una familia con hijos sea un niño". (Uno de estos tiene una respuesta correcta simple, el otro tiene una respuesta incorrecta simple y obtener una respuesta correcta es complicado).
fuente
Dejar
ser el espacio muestral y dejar
Trivialmente, el valor esperado de las niñas es 1. Entonces, la proporción también es 1.
fuente
Es una pregunta capciosa. La relación se mantiene igual (1: 1). La respuesta correcta es que no afecta la proporción de nacimientos, pero sí afecta el número de hijos por familia con un factor limitante de un promedio de 2 nacimientos por familia.
Este es el tipo de pregunta que puede encontrar en una prueba de lógica. La respuesta no es sobre la proporción de nacimientos. Eso es una distracción.
Esta no es una pregunta de probabilidad, sino una pregunta de razonamiento cognitivo. Incluso si respondiste una proporción de 1: 1, aún fallaste la prueba.
fuente
Estoy mostrando el código que escribí para una simulación de Monte Carlo (familias 500x1000) usando el software 'MATLAB'. Examine el código para que no me equivoque.
El resultado se genera y se representa a continuación. Muestra que la probabilidad simulada de nacimiento de niñas tiene muy buena concordancia con la probabilidad de nacimiento natural subyacente, independientemente de la regla de detención para un rango de probabilidad de nacimiento natural.
Jugando con el código es más fácil entender un punto que no había entendido antes --- como señala otro, la regla de detención es una distracción. La regla de detención solo afecta el número de familias que reciben una población fija o, desde otro punto de vista, el número de nacimientos de niños dado un número fijo de familias. El género está determinado únicamente por el lanzamiento de dados y, por lo tanto, la proporción o probabilidad (que es independiente del número de hijos) dependerá únicamente del niño natural: el nacimiento de la niña.
fuente
La independencia de los nacimientos es irrelevante para el cálculo de los valores esperados.
A propósito de la respuesta de @ whuber, si hay una variación de la probabilidad marginal entre familias, la proporción se sesga hacia los niños, debido a que hay más niños en familias con mayor probabilidad de niños que familias con una probabilidad más baja, lo que tiene un efecto aumentativo de La suma del valor esperado para los niños.
fuente
Independientemente también programé una simulación en matlab, antes de ver lo que otros han hecho. Estrictamente hablando, no es un MC porque solo ejecuté el experimento una vez. Pero una vez es suficiente para obtener resultados. Esto es lo que produce mi simulación. No tomo una posición sobre la probabilidad de que los nacimientos sean p = 0.5 como primitivos. Dejo que la probabilidad de nacimiento varíe en un rango de Pr (Niños = 1) = 0.25: 0.05: 0.75.
Mis resultados muestran que a medida que la probabilidad se desvía de p = 0.5, la proporción de sexos es diferente de 1: en la expectativa, la proporción de sexos es simplemente la proporción de la probabilidad del nacimiento de un niño a la probabilidad del nacimiento de una niña. Es decir, esta es una variable aleatoria geométrica identificada previamente por @ månst. Esto es lo que creo que el póster original intuía.
Mis resultados imitan de cerca lo que ha hecho el póster anterior con el código matlab, haciendo coincidir las proporciones de sexo en las probabilidades de 0,45, 0,50 y 0,55 de que nazca un niño. Presento el mío mientras adopto un enfoque ligeramente diferente para obtener los resultados con un código más rápido. Para realizar la comparación, omití la sección de código vec = vec (randperm (s, N)) ya que s no está definido en su código y no sé la intención original de esta variable (esta sección de código también parece superflua, como originalmente fijado).
Publico mi código
Se espera el siguiente gráfico dada la fuerte ley del gran número. Lo reproduzco, pero el gráfico que importa es el segundo gráfico.
Aquí, una probabilidad de población diferente a 0.5 para el nacimiento de cualquier sexo de un niño alterará la proporción de sexos en la población general. Suponiendo que los nacimientos son independientes (pero no la opción de seguir reproduciéndose), en cada ronda de reproducción condicional, la probabilidad de la población gobierna la composición general de los resultados de los nacimientos de niños y niñas. Entonces, como otros han mencionado, la regla de detención en el problema es intrascendente para el resultado de la población, como lo respondió el afiche que identificó esto como la distribución geométrica.
Para completar, lo que afecta la regla de detención es el número de rondas de reproducción en la población. Como solo ejecuté el experimento una vez, el gráfico es un poco irregular. Pero la intuición está ahí: para un tamaño de población dado, a medida que aumenta la probabilidad del nacimiento de una niña, vemos que las familias necesitan menos rondas de reproducción para obtener la niña deseada antes de que toda la población deje de reproducirse (obviamente, el número de rondas dependerá de tamaño de la población, ya que aumenta mecánicamente la probabilidad de que una familia tenga, por ejemplo, 49 niños antes de tener su primera niña)
La comparación entre mis proporciones de sexo calculadas:
y los del póster anterior con el código matlab:
Son resultados equivalentes.
fuente
Depende de la cantidad de familias.
fuente