Entiendo la lógica de la codificación para el análisis de datos. Mi pregunta a continuación es sobre el uso de un código específico.
- ¿Hay alguna razón por la cual el género a menudo se codifica como 0 para mujeres y 1 para hombres?
- ¿Por qué esta codificación se considera 'estándar'?
- Compare esto con Female = 1 y Male = 2. ¿Hay algún problema con esta codificación?
data-transformation
binary-data
categorical-encoding
units
Adhesh Josh
fuente
fuente
Respuestas:
Razones para preferir la codificación cero-uno de las variables binarias:
Varios puntos sobre la codificación de variables binarias:
y = a + b * Male
lugar dey = a + b * Gender
.fuente
Hace que sea más fácil interpretar los resultados. Supongamos que tiene algunos datos de altura:
y tomaste una regresión de la forma
Height = a + b * Gender + Residual
.Con la variable ficticia 0,1 obtendría una estimación de
a
170 que es la altura promedio de las mujeres yb
de 10 la diferencia entre las alturas promedio de los hombres y las mujeres.Con la variable ficticia 1,2 obtendría una estimación
a
de 160 que es más difícil de interpretar.fuente
Supuse que esto se debía a que el tipo de campo que se usa a menudo para almacenar el género es un campo de bits, y los campos de bits en SQL solo pueden tener los valores 0 o 1. Cuando vuelca los datos, sale como 0 o 1, y entonces es por eso que obtienes esos valores particulares.
Si quisiera usar 1 y 2, tendría que usar un tipo de campo más grande, que ocuparía más espacio y, por lo tanto, haría que la base de datos completa fuera un poco más grande.
fuente
Un profesor me sugirió que codificáramos "biológicamente" con mujeres de 0 y hombres de 1 para reflejar la anatomía. No creo que fuera lo más sensible, o lo que se dice de PC en una clase, pero definitivamente fácil de recordar cuando se mira un conjunto de datos 5 años después.
fuente
Muchas buenas razones publicadas hasta ahora, pero también deberían ser reflexivas. ¿Por qué empezarías a contar a 1? Hace que muchos algoritmos numéricos sean mucho más complicados. El etiquetado comienza en 0, no en 1. Si aún no está convencido de esto, tengo un buen ejemplo de por qué es importante en http://madhadron.com/?p=69
En cuanto a por qué las mujeres son 0 y los hombres son 1, recordemos que durante gran parte de su historia, es probable que un estadístico sea un hombre heterosexual. Cuando se le pidió que nombrara un sexo, el primero que se le ocurrió fue 'mujer'. Todo después de eso probablemente fue un accidente histórico y una racionalización.
fuente
El estándar ISO / IEC 5218 actualiza esta noción con el siguiente mapa:
Esto es particularmente útil en lenguajes donde 0 coacciona a un valor falso, como en JavaScript:
fuente
La forma en que lo veo personalmente es fálicamente 0 representa típicamente femenino, ya que es la forma del útero, y se considera femenino ... en casi todas las ciencias (es decir, en cuadros de pedigrí de biología / genética), o los ceros representan a las mujeres. Mientras que las formas más rectas (triángulos, cuadrados o 1s) tienden a representar el género masculino. Esta simple comprensión me ha facilitado recordar siempre cuál es cuál para mí.
Aunque al final del día, si usted es el que codifica y analiza los datos usted mismo, puede poner los números que desee, generalmente siempre que haya una clave sobre qué variable ficticia usó para qué, se vuelve irrelevante.
fuente