¿Por qué el género generalmente se codifica 0/1 en lugar de 1/2, por ejemplo?

25

Entiendo la lógica de la codificación para el análisis de datos. Mi pregunta a continuación es sobre el uso de un código específico.

¿Hay alguna razón por la cual el género a menudo se codifica como 0 para mujeres y 1 para hombres?
¿Por qué esta codificación se considera 'estándar'?
Compare esto con Female = 1 y Male = 2. ¿Hay algún problema con esta codificación?

data-transformation binary-data categorical-encoding units Adhesh Josh
fuente

15

El uso de un esquema de codificación 0/1 es esencialmente útil cuando se aplican modelos de regresión, entre otros, aunque son posibles varios esquemas de codificación, por ejemplo -1/1 (pero cambiará la interpretación de los coeficientes de regresión). Sin embargo, no debe confundirse con la entrada de datos (es decir, lo que realmente pone en su base de datos). En este caso, es mejor almacenar las etiquetas completas. Conviértalos a valores numéricos o cree una matriz de diseño dedicada cuando cree su modelo de regresión. De lo contrario, le deseo buena suerte para decir qué significan los 0 y 1 en 5 años.

chl

He visto el género codificado en la base de datos como masculino, femenino y desconocido.

Aksakal

2

Creo que esta pregunta se considera mejor como dos preguntas confundidas. La pregunta más importante es por qué usar la codificación 0-1 en lugar de cualquier otra para un indicador o variable ficticia. La pregunta más pequeña es por qué usar 1 para hombre y 0 para mujer, a lo que una respuesta breve es que se están utilizando muchas otras codificaciones, incluido el opuesto de 1 para mujer, etc., y también varias codificaciones complejas que permiten género desconocido y Otras categorías de género.

Nick Cox

38

Razones para preferir la codificación cero-uno de las variables binarias:

La media de una variable cero-uno representa la proporción en la categoría representada por el valor uno (por ejemplo, el porcentaje de hombres).
En una regresión simple donde es la variable cero uno, la constante tiene una interpretación directa (por ejemplo, es la media de para las mujeres). $y = a + bx$ $x$ $a$ $y$
Cualquier codificación de una variable binaria donde la diferencia entre los dos valores es uno (es decir, cero uno, pero también uno dos) da una interpretación directa del coeficiente de regresión (p. Ej., es el efecto de pasar de femenino a masculino en y) $b$

Varios puntos sobre la codificación de variables binarias:

Cualquier codificación de una variable binaria que conserve el orden de las categorías (p. Ej., Femenino = 0, masculino = 1; femenino = 1, masculino = 2; femenino = 1007, masculino = 2000; etc.) no afectará la correlación de variable binaria con otras variables.
Cualquier tabla que informe una variable binaria de esta manera debería dejar en claro cómo se codificó la variable. También puede ser útil etiquetar la variable por la categoría que representa el valor de uno: por ejemplo, en y = a + b * Malelugar de y = a + b * Gender.
Para algunas variables binarias, una categoría más naturalmente debería codificarse como una. Por ejemplo, cuando se observa la diferencia entre el tratamiento y el control, el control debe ser cero y el tratamiento debe ser uno, porque el coeficiente de regresión se considera mejor como el efecto del tratamiento.
Voltear las categorías (p. Ej., Haciendo femenino = 1 y masculino = 0, en lugar de femenino = 0 y masculino = 1) cambiará el signo de correlaciones y coeficientes de regresión.
En el caso del género, generalmente no hay una razón natural para codificar la variable hembra = 0, hombre = 1, versus hombre = 0, mujer = 1. Sin embargo, la convención puede sugerir que una codificación es más familiar para un lector; o elegir una codificación que haga que el coeficiente de regresión sea positivo puede facilitar la interpretación. Además, en algunos contextos, un género puede considerarse como la categoría de referencia; por ejemplo, si estuvieras estudiando el efecto de ser mujer en una profesión dominada por hombres sobre los ingresos, podría tener sentido codificar hombre = 0 y mujer = 1, para hablar del efecto de ser mujer.
Escalar los coeficientes de regresión de manera reflexiva puede tener un poderoso efecto sobre la interpretabilidad de los coeficientes de regresión. Andrew Gelman discute esto bastante; véase, por ejemplo, su artículo de 2008 Escalar entradas de regresión dividiendo por dos desviaciones estándar (PDF) en Estadísticas en medicina , 27, 2865-2873.
La codificación masculina y femenina como -1 y +1 es otra opción que puede proporcionar coeficientes significativos (ver "qué es la codificación de efectos" ).

Jeromy Anglim
fuente

18

Siempre pensé que la razón natural para codificar female = 0 y male = 1 era "anatomy" ...

Matt Parker

2

@matt gracioso. Nunca lo había pensado así. Siempre me ha influido la lente de mi título de Artes, donde te enseñan cómo algunas feministas critican las ideologías que ven a las mujeres definidas por la falta de algo que poseen los hombres. A través de esa lente, de manera algo humorística, la codificación del género se convierte en un problema político :-)

Jeromy Anglim

13

Como costumbre, siempre cambio el nombre de una variable de género a algo como "Femenino", para dejar en claro lo que significa un esquema de codificación 0/1.

Fomite

Jeromy, ¿querrás observar la discusión stats.meta.stackexchange.com/a/4881/3277 de si necesitamos una etiqueta separada [dummy-variables] y decir tu pro / con en un comentario?

ttnphns

Considerando el par de cromosomas sexuales X e Y, las mujeres tienen XX y los hombres tienen cromosomas XY. Tomando X = 0 e Y = 1, podemos encontrar que mujer = XX = 00 = 0 y hombre = XY = 01 = 1.

Gürol Canbek

14

Hace que sea más fácil interpretar los resultados. Supongamos que tiene algunos datos de altura:

Woman A: 165
Woman B: 170
Woman C: 175
Man D: 170
Man E: 180
Man F: 190

y tomaste una regresión de la forma Height = a + b * Gender + Residual.

Con la variable ficticia 0,1 obtendría una estimación de a170 que es la altura promedio de las mujeres y bde 10 la diferencia entre las alturas promedio de los hombres y las mujeres.

Con la variable ficticia 1,2 obtendría una estimación ade 160 que es más difícil de interpretar.

Enrique
fuente

Gracias. Estoy aprendiendo estadísticas a la 'velocidad de la luz' porque es un requisito de mi nuevo trabajo. ¿Se aplicaría esta codificación al análisis de correlación?

Adhesh Josh

1

@Adhesh Si te refieres a la correlación entre dos variables cuantitativas, entonces no hay problema de codificación: solo usa las medidas en bruto. Si su pregunta es sobre la asociación entre dos variables cualitativas, entonces podría considerar hacer una nueva pregunta, pero, francamente, no hay mucha dificultad en este caso (a menos que quiera usar puntajes desigualmente espaciados para las categorías de variables, pero esto se ha respondido en otra parte sobre esto sitio).

chl

44

@Adesh Codificar un binario 1/2 o 0/1 no afectará su coeficiente de correlación. 0/1 también tiene la ventaja de que la media de la variable sería el porcentaje masculino o femenino, dependiendo de cuál es cuál. Otros esquemas de codificación pueden ser útiles para interpretar diferentes tipos de análisis.

Michael Bishop

2

Supuse que esto se debía a que el tipo de campo que se usa a menudo para almacenar el género es un campo de bits, y los campos de bits en SQL solo pueden tener los valores 0 o 1. Cuando vuelca los datos, sale como 0 o 1, y entonces es por eso que obtienes esos valores particulares.

Si quisiera usar 1 y 2, tendría que usar un tipo de campo más grande, que ocuparía más espacio y, por lo tanto, haría que la base de datos completa fuera un poco más grande.

malvadedad
fuente

Como programador de SQL, esta fue mi primera reacción también. No estoy seguro de ninguna razón matemática pura para usar 0 y 1 para género, pero sé de hecho que parte del ímpetu provino de la necesidad de usar los tipos de datos más pequeños posibles. Los estándares de toda la industria se desarrollaron a partir de la costumbre y todos se alinearon. Puede valer la pena consultar el historial de estándares ANSI para esto. En estos días hay un impulso para hacer que los DBA usen bytes o pequeñas columnas enteras para género, para indicar excepciones inusuales como "entidad corporativa" o "indeterminada", pero muchas bases de datos antiguas aún reflejan el viejo estándar.

SQLServerSteve

2

Un profesor me sugirió que codificáramos "biológicamente" con mujeres de 0 y hombres de 1 para reflejar la anatomía. No creo que fuera lo más sensible, o lo que se dice de PC en una clase, pero definitivamente fácil de recordar cuando se mira un conjunto de datos 5 años después.

Cassie
fuente

Claramente, esta no es la respuesta "real" a la pregunta (quizás esto es más un comentario que una respuesta), pero la mnemónica es claramente una que mucha gente encuentra útil.

Silverfish

Más "biológico" que "anatómico", me enseñaron (aunque sospecho que la "razón" fue inventada en retrospectiva, en lugar de ser el original) que 0 se usa para la mujer, ya que es el sexo "predeterminado", la creencia es que en desarrollo embriológico, se toma la vía femenina a menos que los procesos intermedios empujen al embrión a diferenciarse por la vía masculina. Esta era una creencia generalizada, pero ahora se considera obsoleta : la vía femenina también debe activarse activamente.

Silverfish

1

En este caso, ¿no deberían codificarse los hombres como "00"?

Harvey Motulsky

1

Muchas buenas razones publicadas hasta ahora, pero también deberían ser reflexivas. ¿Por qué empezarías a contar a 1? Hace que muchos algoritmos numéricos sean mucho más complicados. El etiquetado comienza en 0, no en 1. Si aún no está convencido de esto, tengo un buen ejemplo de por qué es importante en http://madhadron.com/?p=69

En cuanto a por qué las mujeres son 0 y los hombres son 1, recordemos que durante gran parte de su historia, es probable que un estadístico sea un hombre heterosexual. Cuando se le pidió que nombrara un sexo, el primero que se le ocurrió fue 'mujer'. Todo después de eso probablemente fue un accidente histórico y una racionalización.

usuario873
fuente

-1

El estándar ISO / IEC 5218 actualiza esta noción con el siguiente mapa:

0 = not known,
1 = male,
2 = female,
9 = not applicable.

Esto es particularmente útil en lenguajes donde 0 coacciona a un valor falso, como en JavaScript:

if ( !user.gender ) {
    promptForGender();
}

Adam Eivy
fuente

10

Es importante tener en cuenta que este tipo de estándar es realmente para la transmisión y / o almacenamiento de datos. No es adecuado como estándar para el análisis de datos , que es de lo que se trata específicamente la pregunta.

whuber

-2

La forma en que lo veo personalmente es fálicamente 0 representa típicamente femenino, ya que es la forma del útero, y se considera femenino ... en casi todas las ciencias (es decir, en cuadros de pedigrí de biología / genética), o los ceros representan a las mujeres. Mientras que las formas más rectas (triángulos, cuadrados o 1s) tienden a representar el género masculino. Esta simple comprensión me ha facilitado recordar siempre cuál es cuál para mí.

Aunque al final del día, si usted es el que codifica y analiza los datos usted mismo, puede poner los números que desee, generalmente siempre que haya una clave sobre qué variable ficticia usó para qué, se vuelve irrelevante.

Jillian
fuente

2

Extraña respuesta a una pregunta tonta.

Michael R. Chernick

¿Por qué el género generalmente se codifica 0/1 en lugar de 1/2, por ejemplo?

Respuestas:

Razones para preferir la codificación cero-uno de las variables binarias:

Varios puntos sobre la codificación de variables binarias: