Probabilidad de que cinco niños de la misma clase tengan el mismo nombre de pila.

10

En los foros de nombres de bebés, los futuros padres repiten alguna versión de su Miedo a Jennifer todo el tiempo: "No quiero que mi hijo sea uno de los 5 en su clase con su nombre". La cosa es que ningún nombre se acerca a ese tipo de popularidad, e incluso en el apogeo de la moda de Jennifer, no obtuviste cinco de ellos en una clase. Quisiera algún tipo de respuesta para estos padres de cuán improbable sería una coincidencia de repetición de nombres.

Utilizando la extensa información de nombres de bebés de la Administración del Seguro Social ( https://www.ssa.gov/oact/babynames/limits.html ), ¿alguien puede decirme cómo calcular las posibilidades de que una clase de escuela primaria en los EE. UU. Tenga cinco niños con el mismo nombre? (Por simplicidad, por "mismo nombre" me refiero a la misma ortografía, y por "clase escolar" me refiero a que todos los niños nacieron en el mismo año). No estoy especificando un tamaño de clase, pero definitivamente debería ser mayor que 4 . :-)

JPmiaou
fuente
1
Las publicaciones sobre nombres de bebés son un tema recurrente en el blog de Andrew Gelman. En ninguna de las publicaciones que encontré en su sitio, él discute su pregunta específica. Él hace un enlace a un "blog de nombre de bebé" donde podría tener más suerte para obtener una respuesta. andrewgelman.com/2005/09/07/baby_name_blog
Mike Hunter
Creo que puedes unir algo usando la distribución multinomial con probabilidades de éxito, por ejemplo, los primeros veinte nombres principales extraídos de datos del censo como este .
Antoni Parellada
¿La SSA proporciona datos sobre el número de niños nacidos con un nombre? Solo estoy encontrando información sobre los rangos que obviamente descarta información útil.
Sycorax dice Reinstate Monica el
66
@AntoniParellada Creo que la realidad de la situación es aún más sutil: dado que el sistema escolar de EE. UU. Está altamente segregado por ingresos y raza, creo que las estadísticas nacionales tendrán una correspondencia deficiente con las aulas reales.
Sycorax dice Reinstate Monica el
3
Cuando era estudiante en una escuela primaria (pequeña), teníamos tres Johns en una clase muy pequeña (creo que los niños y niñas combinados tenían solo 14 años). Un año combinamos con el año anterior para hacer una clase de tamaño completo ... y obtuve un cuarto John. Ahora John era bastante común entonces, pero no tan común. (En términos del problema original, tres serían casi tan molestos como cinco). La posibilidad de que un nombre en particular se duplique muchas veces sería muy baja, pero la posibilidad de que algún nombre aparezca varias veces será mucho mayor.
Glen_b: reinstala a Mónica el

Respuestas:

9

Todos los datos se pueden encontrar aquí . Cada valor en la tabla representa la probabilidad de que, dada una muestra de 25 personas de ese lugar y año de nacimiento, 5 de ellos compartan un nombre.

Método : utilicé el PDF binomial en cada nombre para encontrar la probabilidad de que cualquier clase de 25 personas tenga 5 personas que compartan un nombre:

n = class size
k = 5,6,...,n 
p_i = (# of name[i]'s) / (total # of kids)

Pn(5+ kids share name)= namesk=5n(nk)pik(1pi)nk

Por ejemplo, si hay un total de 4,000,000 niños y 21,393 Emily's, entonces la probabilidad de que haya 5 Emily's en cualquier clase con 25 estudiantes es Binomial (25, 5, 0.0053) = 0.0000002. Sumar todos los nombres no da una respuesta exacta, porque según el Principio de Inclusión / Exclusión , también debemos tener en cuenta la posibilidad de tener múltiples grupos de 5 personas que compartan nombres. Sin embargo, dado que estas probabilidades son prácticamente nulas para todos los fines prácticos, he asumido que son insignificantes y, por lo tanto, .P(Ai)P(Ai)

Actualización: como señalaron muchas personas, existe una considerable variación en el tiempo y entre los estados. Así que ejecuté el mismo programa, ESTADO POR ESTADO, y con el tiempo. Estos son los resultados (la probabilidad nacional es roja, los estados individuales son negros):

ingrese la descripción de la imagen aquí

Curiosamente, Vermont (mi estado natal) ha sido siempre uno de los lugares más probables para que esto suceda en las últimas décadas.

David C
fuente
3
¿Alguna posibilidad de que puedas explicar cómo obtuviste estos números? No es necesario que lo simplifique demasiado: tengo una licenciatura en matemáticas y sé dónde buscar cosas, pero realmente me gustaría saber el tipo de razonamiento que realmente conduce a las probabilidades (en cambio de suspiros intimidados).
JPmiaou
1
Esto supone que los nombres se dan al azar con las mismas probabilidades , lo que simplemente no es cierto . ¡También la experiencia de la vida real muestra que hay muchas más clases con niños que tienen los mismos nombres que 1 en 200!
Tim
44
Obtengo resultados ligeramente diferentes, pero están cerca. Sin embargo, no vale la pena discutir esto, porque la variación geográfica y temporal en los resultados es enorme. La respuesta ha cambiado en dos órdenes de magnitud desde 1910 y varía en un orden de magnitud entre los estados. Dado que casi ninguna clase de escuela primaria proviene de los Estados Unidos, el modelo de selección aleatoria de la lista de nombres nacionales es inapropiado.
whuber
2
(1) Mire los otros años en el archivo nacional que descargó. (2) Mire los archivos de estado disponibles en el mismo sitio.
whuber
2
Sí, el gráfico de probabilidades a lo largo del tiempo es dramático: comenzó una fuerte disminución en 1980. Pero la variación del estado es muy grande, como era de esperar: los nombres varían geográficamente y se agrupan fuertemente por origen étnico, ingresos y otros factores demográficos. (+1 para su investigación extendida sobre la variación de estado y tiempo, por cierto)
whuber
0

consulte el siguiente script de Python para Python2.

La respuesta está inspirada en la respuesta de David C.

Mi respuesta final sería la probabilidad de encontrar al menos cinco Jacobs en una clase, siendo Jacob el nombre más probable según los datos de https://www.ssa.gov/oact/babynames/limits.html "Datos nacionales "desde 2006.

La probabilidad se calcula de acuerdo con una distribución binomial con la probabilidad de Jacob como la probabilidad de éxito.

import pandas as pd
from scipy.stats import binom

data = pd.read_csv(r"yob2006.txt", header=None, names=["Name", "Sex", "Count"])

# count of children in the dataset:
sumCount = data.Count.sum()

# do calculation for every name:
for i, row in data.iterrows():
    # relative counts of each name being interpreted as probabily of occurrence
    data.loc[i, "probability"] = data.loc[i, "Count"]/float(sumCount)

    # Probabilites being five or more children with that name in a class of size n=25,50 or 100
    data.loc[i, "atleast5_class25"] = 1 - binom.cdf(4,25,data.loc[i, "probability"])
    data.loc[i, "atleast5_class50"] = 1 - binom.cdf(4,50,data.loc[i, "probability"])
    data.loc[i, "atleast5_class100"] = 1 - binom.cdf(4,100,data.loc[i, "probability"])

maxP25 = data["atleast5_class25"].max()
maxP50 = data["atleast5_class50"].max()
maxP100 = data["atleast5_class100"].max()

print ("""Max. probability for at least five kids with same name out of 25: {:.2} for name {}"""
   .format(maxP25, data.loc[data.atleast5_class25==maxP25,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 50: {:.2} for name {}, of course."""
   .format(maxP50, data.loc[data.atleast5_class50==maxP50,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 100: {:.2} for name {}, of course."""
   .format(maxP100, data.loc[data.atleast5_class100==maxP100,"Name"].values[0]))

Max. probabilidad de al menos cinco niños con el mismo nombre de 25: 4.7e-07 para el nombre Jacob

Max. probabilidad de al menos cinco niños con el mismo nombre de 50: 1.6e-05 para el nombre de Jacob, por supuesto.

Max. probabilidad de al menos cinco niños con el mismo nombre de 100: 0.00045 para el nombre de Jacob, por supuesto.

Por un factor de 10 el mismo resultado que el de David C. Gracias. (Mi respuesta no suma todos los nombres, debería discutirse)

Feinmann
fuente
Esta respuesta no parece abordar la cuestión de la posibilidad de que algún nombre aparezca cinco o más veces en un aula.
whuber
1
@feinmann Creo que tomar la suma sobre todos los nombres es apropiado porque la probabilidad de tener dos o más grupos de 5 personas con el mismo nombre en una clase es casi cero, y es insignificante a todos los efectos prácticos. Es decir, de acuerdo con el Principio de inclusión / exclusión , si no tenemos en cuenta esta posibilidad, entoncesP(Ai)P(Ai)
David C
2
No, no has respondido la pregunta ya que la acabas de formular. La posibilidad de que algún nombre aparecerá cinco o más veces es mucho mayor que la máxima probabilidad de que un determinado nombre aparecerá cinco o más veces.
whuber
3
Como señala @whuber, "5 Jacobs" es un argumento más débil que "5 de algún nombre", pero de todos modos puede ser útil en las discusiones sobre nombres de bebés: "Aquí está la probabilidad de que cinco niños tengan el nombre más popular. No eres usando el nombre más popular, por lo que su probabilidad es aún menor ".
JPmiaou
2
No es exactamente , porque las posibilidades no son mutuamente excluyentes: podría tener 5 o más Thomases y 5 o más Richards ( y tal vez incluso 5 o más Henrys) en una sola clase. Entonces es un límite superior. @DavidC argumenta en un comentario aquí que tales eventos tienen una probabilidad insignificante.
Scortchi - Restablece a Monica