¿Cuánta información puedes extraer de un nombre?

11

Un nombre: primero, posiblemente un segundo nombre y apellido.

Tengo curiosidad acerca de cuánta información puede extraer de un nombre, utilizando conjuntos de datos disponibles públicamente. Sé que puede obtener lo siguiente en cualquier lugar entre una probabilidad baja-alta (dependiendo de la entrada) utilizando los datos del censo de EE. UU .: 1) Género. 2) raza.

Facebook, por ejemplo, usó exactamente eso para descubrir, con un nivel de precisión decente, la distribución racial de los usuarios de su sitio (https://www.facebook.com/note.php?note_id=205925658858).

¿Qué más se puede extraer? No busco nada específico, esta es una pregunta muy abierta para calmar mi curiosidad.

Mis ejemplos son específicos de los EE. UU., Por lo que asumiremos que el nombre es el nombre de alguien ubicado en los EE. UU. pero, si alguien conoce los conjuntos de datos disponibles públicamente para otros países, estoy más que abierto a ellos también.

No estoy muy seguro de si este es el lugar correcto para esto, si no es así, agradecería que alguien me pudiera señalar un lugar más apropiado.

Espero que esta sea una pregunta interesante, ¡y este es el lugar apropiado!

2

presumiblemente, también podría obtener algo sobre la ubicación geográfica, si pudiera obtener los datos coincidentes adecuados. También puede utilizar la información sobre la popularidad de los nombres de pila con el tiempo (google "asistente del nombre del bebé") para hacer inferencias acerca de la edad ...

Ben Bolker

1

He fusionado la pregunta transferida con el duplicado.

12

Esta no es una respuesta seria, pero acabo de recordar algo de un libro que leí hace un año. Hay un capítulo en Freakonomics dedicado a lo que puedes decir sobre una persona por su nombre. El capítulo se basa en el trabajo de investigación del autor Las causas y consecuencias de los nombres distintivamente negros

Creo que he encontrado un extracto o resumen en este artículo.

Los datos muestran que, en promedio, una persona con un nombre distintivamente negro, ya sea una mujer llamada Imani o un hombre llamado DeShawn, tiene un peor resultado en la vida que una mujer llamada Molly o un hombre llamado Jake. Pero no es culpa de su nombre. Si dos niños negros, Jake Williams y DeShawn Williams, nacen en el mismo vecindario y en las mismas circunstancias familiares y económicas, probablemente tendrían resultados de vida similares. Pero el tipo de padres que nombran a su hijo Jake no tienden a vivir en los mismos vecindarios o comparten circunstancias económicas con el tipo de padres que nombran a su hijo DeShawn. Y es por eso que, en promedio, un niño llamado Jake tenderá a ganar más dinero y recibirá más educación que un niño llamado DeShawn. DeShawn '

fuente

4

A partir del primer nombre, pronostique región, edad, estatus de inmigrante de primera generación. Desde el apellido puede predecir la ubicación geográfica del patronímico original. Para el nombre completo, podría predecir el estado social y económico (Thurston Howell III).

fgregg
fuente

+1 solo por la primera mención en este sitio de un personaje de Gilligan's Island.

rolando2

4

Solo para agregar otras sugerencias aquí, una de las mayores fuentes de datos familiares es la gran cantidad de sitios de genealogía que existen. Creo que la mayoría de las personas occidentales probablemente figuran en la lista de algún miembro de la familia, distante o no en algunos de ellos y cualquier inclusión viene con un árbol genealógico generalmente adjunto, completo con lugares, detalles de nacimiento, etc. Muy informativo.

Si combina esos datos con gráficos de amigos en Facebook, ya que las personas tienden a agregar hermanos / primos (y padres / hijos en ocasiones), luego usa los datos de ubicación con roles y directorios electorales, por lo general, puede identificar personas incluso con nombres comunes, y obtener una cantidad sorprendentemente grande de datos sobre ellos.

fuente

3

El último capítulo de Freakonomics (2005, Steven D. Levitt y Stephen J. Dubner) tiene una discusión fascinante sobre los nombres, particularmente en lo que se refiere al estado socioeconómico y la raza.

Tienen una lista de nombres que pueden o no correlacionarse bien con el análisis de apellidos de FB. También describen cómo la elección del nombre está cambiando diacrónicamente (a lo largo del tiempo).

Quién sabe, el nombre de selección de los padres podría ser más preciso que lo que la gente informa en el censo.

rajah9
fuente

3

Tienes muchas buenas sugerencias arriba, así que solo mencionaré una anécdota interesante. Un estudiante de verano (ahora un destacado científico de la computación) en un laboratorio de investigación corporativo (que permanecerá sin nombre) miró los datos del directorio telefónico en línea de la compañía y construyó un modelo predictivo para la calificación de pago utilizando n-gramas de caracteres de los nombres. El predictor más fuerte fue que ez_ indicaba una calificación salarial más baja, un hallazgo que imagino que no le animaron a hablar ...

DavidDLewis
fuente

2

Probablemente puedas descubrir:

Profesión y posiblemente historial de trabajo, si uno participa en alguna discusión profesional (el trabajo actual generalmente se puede encontrar desde el nombre de dominio en el correo electrónico o la firma, la búsqueda también revelará los anteriores)
Familiares, si se mantiene el perfil en las redes sociales.
Ubicación actual, al menos hasta la ciudad.
Origen étnico, si uno tiene un nombre distinto (es decir, alguien llamado "Lubomir" probablemente esté conectado a uno de los países europeos eslavos, etc.).
Fecha de nacimiento de las redes sociales: las personas tienden a felicitar a una persona en su fecha de nacimiento, y si tienes suerte, también obtienes el año en que uno cumple 25, 30, 35, etc., ya que una de las personas que felicitan probablemente lo mencionaría si no la persona en cuestión.
Formación educativa: de LinkedIn, etc.
Aficiones, equipos deportivos favoritos, etc.
Si uno es un amante de las mascotas, probablemente también tenga todas sus mascotas en las redes sociales.

Lo que por cierto significa que nunca debe usar nada de la lista anterior para sus contraseñas, preguntas secretas, etc.

fuente

¿Qué pasa con las personas que tienen el mismo nombre que tú ... hay una serie de "Dean Harding", uno de ellos era incluso un futbolista profesional! El "DeanHarding" en Twitter no soy yo, hay cientos de "Dean Harding" en Facebook, etc, etc ...

Eso depende del azar, por supuesto. Por lo general, puede averiguar cuál es por profesión, ubicación, etc., aunque vi casos en los que había 3 personas con el mismo nombre completo, en la misma profesión y viviendo aproximadamente en la misma área. Entonces, por supuesto, se vuelve más difícil :)

2

Darden y Robinson (1976) intentaron encontrar una estructura lingüística que guíe las asociaciones de personas sobre los nombres de los hombres. Pidieron a dos grupos de sujetos (estudiantes de sociología y oficiales navales) que calificaran un conjunto de nombres estadounidenses comunes a lo largo de los diferenciales semánticos como suave-resistente, común-noble y urbano-rural. También solicitaron juicios de similitud entre los diferentes pares de nombres y, a modo de validación, correlacionaron los medios de los diferenciales semánticos con las dimensiones que encontraron, tanto en tres como en cuatro soluciones D, utilizando el procedimiento TORSCA MDS.

Los autores encontraron que su solución 3-D se correspondía aproximadamente con el trío clásico de activación, evaluación y potencia de Osgood. En cuatro dimensiones, el espacio se ajusta un poco mejor a los datos, y aquí interpretaron que la estructura depende del "carácter", "madurez", "sociabilidad" y "virilidad", aunque estas escalas no parecen tan bien definidas como autores sugeridos. Un hallazgo sorprendente que surgió del estudio fue que, al menos para estas dos pequeñas muestras (n = 83 y 21), no apareció ninguna dimensión que correspondiera a la distinción entre el nombre de pila y el apodo.

Darden, DK y Robinson, IE (1976). Escalamiento multidimensional de los nombres de los hombres: un enfoque sociolingüístico. Sociometry, 39 , 4, 422-431.

rolando2
fuente

1

La cantidad de información que se puede encontrar varía enormemente, desde solo la raza y el género, hasta todo tipo de información personal. Su mejor opción para obtener la información sería sitios de redes sociales como Facebook, ya que generalmente proporcionan más información que las bases de datos de Cencus.

fuente

1

Existe una amplia gama de información que puede obtener dependiendo de las fuentes que utilice. Los datos del censo son obvios. También puede obtener información de Facebook, MySpace y otros sitios de redes sociales. Probablemente también podría buscar en los archivos de noticias públicas menciones de su nombre. Tal vez incluso esos sitios de propiedad enclavados que tienen algunos estados.

Si desea un ejemplo del mundo real de lo que se puede hacer, eche un vistazo a pipl.com

fuente

¿Podría decirnos dónde (en cualquier parte del mundo) podemos encontrar datos del Censo con nombres ?

whuber

1

Puede buscar títulos, licencia de conducir, registro policial (¿es la traducción correcta?). Con Facebook puedes encontrar información sobre pasatiempos, deportes, música que te gusta. También puede buscar la proporción de usuarios de redes sociales de otros usuarios con un nombre de pila. (Estaría interesado en estos resultados)

lcrmorin
fuente

0

No olvide las puntuaciones de Scrabble, por ejemplo, la función de puntuación de Scrabble Alpha de Wolfram

prototipo
fuente

1

¿Podría explicar qué tiene que ver esto con la pregunta del póster original?

DW

0

Si sabe algo sobre la ubicación del individuo, una fuente de información son las bases de datos de registro de votantes. Muchas de las bases de datos de registro de votantes están disponibles (por una tarifa; hay compañías que las compran y les proporcionan acceso de consulta en línea, por una tarifa). La base de datos de registro de votantes puede tener la dirección y / o fecha de nacimiento del individuo. Esa información podría permitirle buscar al individuo en otras bases de datos.

Sin embargo, hay límites sobre cuánto ayuda esto. Esto podría ser útil si conoce la ciudad o el condado donde vive la persona y si su nombre es bastante inusual. Pero si este es un nombre común, o si no sabes dónde viven, probablemente no te ayudará.

DW
fuente

0

Una de las mayores fuentes de datos de acceso público, incluidos muchos otros atributos útiles, es la oficina del secretario del condado para los registros de propiedad. la cuestión se relaciona con reunir todos los datos ... algunos estados proporcionan una base de datos central pero otros no.

NetConstructor.com
fuente

0

La presencia de iniciales medias ya es bastante interesante, y podría decirnos algo sobre el origen étnico. http://blog.scraperwiki.com/2012/06/15/middle-names-in-the-united-states-over-time/

Thomas Levine
fuente

¿Cuánta información puedes extraer de un nombre?

Respuestas: