Un nombre: primero, posiblemente un segundo nombre y apellido.
Tengo curiosidad acerca de cuánta información puede extraer de un nombre, utilizando conjuntos de datos disponibles públicamente. Sé que puede obtener lo siguiente en cualquier lugar entre una probabilidad baja-alta (dependiendo de la entrada) utilizando los datos del censo de EE. UU .: 1) Género. 2) raza.
Facebook, por ejemplo, usó exactamente eso para descubrir, con un nivel de precisión decente, la distribución racial de los usuarios de su sitio (https://www.facebook.com/note.php?note_id=205925658858).
¿Qué más se puede extraer? No busco nada específico, esta es una pregunta muy abierta para calmar mi curiosidad.
Mis ejemplos son específicos de los EE. UU., Por lo que asumiremos que el nombre es el nombre de alguien ubicado en los EE. UU. pero, si alguien conoce los conjuntos de datos disponibles públicamente para otros países, estoy más que abierto a ellos también.
No estoy muy seguro de si este es el lugar correcto para esto, si no es así, agradecería que alguien me pudiera señalar un lugar más apropiado.
Espero que esta sea una pregunta interesante, ¡y este es el lugar apropiado!
Respuestas:
Esta no es una respuesta seria, pero acabo de recordar algo de un libro que leí hace un año. Hay un capítulo en Freakonomics dedicado a lo que puedes decir sobre una persona por su nombre. El capítulo se basa en el trabajo de investigación del autor Las causas y consecuencias de los nombres distintivamente negros
Creo que he encontrado un extracto o resumen en este artículo.
fuente
A partir del primer nombre, pronostique región, edad, estatus de inmigrante de primera generación. Desde el apellido puede predecir la ubicación geográfica del patronímico original. Para el nombre completo, podría predecir el estado social y económico (Thurston Howell III).
fuente
Solo para agregar otras sugerencias aquí, una de las mayores fuentes de datos familiares es la gran cantidad de sitios de genealogía que existen. Creo que la mayoría de las personas occidentales probablemente figuran en la lista de algún miembro de la familia, distante o no en algunos de ellos y cualquier inclusión viene con un árbol genealógico generalmente adjunto, completo con lugares, detalles de nacimiento, etc. Muy informativo.
Si combina esos datos con gráficos de amigos en Facebook, ya que las personas tienden a agregar hermanos / primos (y padres / hijos en ocasiones), luego usa los datos de ubicación con roles y directorios electorales, por lo general, puede identificar personas incluso con nombres comunes, y obtener una cantidad sorprendentemente grande de datos sobre ellos.
fuente
El último capítulo de Freakonomics (2005, Steven D. Levitt y Stephen J. Dubner) tiene una discusión fascinante sobre los nombres, particularmente en lo que se refiere al estado socioeconómico y la raza.
Tienen una lista de nombres que pueden o no correlacionarse bien con el análisis de apellidos de FB. También describen cómo la elección del nombre está cambiando diacrónicamente (a lo largo del tiempo).
Quién sabe, el nombre de selección de los padres podría ser más preciso que lo que la gente informa en el censo.
fuente
Tienes muchas buenas sugerencias arriba, así que solo mencionaré una anécdota interesante. Un estudiante de verano (ahora un destacado científico de la computación) en un laboratorio de investigación corporativo (que permanecerá sin nombre) miró los datos del directorio telefónico en línea de la compañía y construyó un modelo predictivo para la calificación de pago utilizando n-gramas de caracteres de los nombres. El predictor más fuerte fue que ez_ indicaba una calificación salarial más baja, un hallazgo que imagino que no le animaron a hablar ...
fuente
Probablemente puedas descubrir:
Lo que por cierto significa que nunca debe usar nada de la lista anterior para sus contraseñas, preguntas secretas, etc.
fuente
Darden y Robinson (1976) intentaron encontrar una estructura lingüística que guíe las asociaciones de personas sobre los nombres de los hombres. Pidieron a dos grupos de sujetos (estudiantes de sociología y oficiales navales) que calificaran un conjunto de nombres estadounidenses comunes a lo largo de los diferenciales semánticos como suave-resistente, común-noble y urbano-rural. También solicitaron juicios de similitud entre los diferentes pares de nombres y, a modo de validación, correlacionaron los medios de los diferenciales semánticos con las dimensiones que encontraron, tanto en tres como en cuatro soluciones D, utilizando el procedimiento TORSCA MDS.
Los autores encontraron que su solución 3-D se correspondía aproximadamente con el trío clásico de activación, evaluación y potencia de Osgood. En cuatro dimensiones, el espacio se ajusta un poco mejor a los datos, y aquí interpretaron que la estructura depende del "carácter", "madurez", "sociabilidad" y "virilidad", aunque estas escalas no parecen tan bien definidas como autores sugeridos. Un hallazgo sorprendente que surgió del estudio fue que, al menos para estas dos pequeñas muestras (n = 83 y 21), no apareció ninguna dimensión que correspondiera a la distinción entre el nombre de pila y el apodo.
Darden, DK y Robinson, IE (1976). Escalamiento multidimensional de los nombres de los hombres: un enfoque sociolingüístico. Sociometry, 39 , 4, 422-431.
fuente
La cantidad de información que se puede encontrar varía enormemente, desde solo la raza y el género, hasta todo tipo de información personal. Su mejor opción para obtener la información sería sitios de redes sociales como Facebook, ya que generalmente proporcionan más información que las bases de datos de Cencus.
fuente
Existe una amplia gama de información que puede obtener dependiendo de las fuentes que utilice. Los datos del censo son obvios. También puede obtener información de Facebook, MySpace y otros sitios de redes sociales. Probablemente también podría buscar en los archivos de noticias públicas menciones de su nombre. Tal vez incluso esos sitios de propiedad enclavados que tienen algunos estados.
Si desea un ejemplo del mundo real de lo que se puede hacer, eche un vistazo a pipl.com
fuente
Puede buscar títulos, licencia de conducir, registro policial (¿es la traducción correcta?). Con Facebook puedes encontrar información sobre pasatiempos, deportes, música que te gusta. También puede buscar la proporción de usuarios de redes sociales de otros usuarios con un nombre de pila. (Estaría interesado en estos resultados)
fuente
No olvide las puntuaciones de Scrabble, por ejemplo, la función de puntuación de Scrabble Alpha de Wolfram
fuente
Si sabe algo sobre la ubicación del individuo, una fuente de información son las bases de datos de registro de votantes. Muchas de las bases de datos de registro de votantes están disponibles (por una tarifa; hay compañías que las compran y les proporcionan acceso de consulta en línea, por una tarifa). La base de datos de registro de votantes puede tener la dirección y / o fecha de nacimiento del individuo. Esa información podría permitirle buscar al individuo en otras bases de datos.
Sin embargo, hay límites sobre cuánto ayuda esto. Esto podría ser útil si conoce la ciudad o el condado donde vive la persona y si su nombre es bastante inusual. Pero si este es un nombre común, o si no sabes dónde viven, probablemente no te ayudará.
fuente
Una de las mayores fuentes de datos de acceso público, incluidos muchos otros atributos útiles, es la oficina del secretario del condado para los registros de propiedad. la cuestión se relaciona con reunir todos los datos ... algunos estados proporcionan una base de datos central pero otros no.
fuente
La presencia de iniciales medias ya es bastante interesante, y podría decirnos algo sobre el origen étnico. http://blog.scraperwiki.com/2012/06/15/middle-names-in-the-united-states-over-time/
fuente