Digamos que quiero crear un clasificador logístico para una película M. Mis características serían algo como la edad de la persona, el género, la ocupación, la ubicación. Entonces, el conjunto de entrenamiento sería algo así como:
- Edad Género Ocupación Ubicación Me gusta (1) / No me gusta (0)
- 23 M Software EE. UU. 1
- 24 F Doctor Reino Unido 0
y así sucesivamente ... Ahora mi pregunta es cómo debo escalar y representar mis características. Una forma en la que pensé: dividir la edad como grupos de edad, entonces 18-25, 25-35, 35-arriba, Género como M, F, Ubicación como EE. UU., Reino Unido, Otros. Ahora cree una función binaria para todos estos valores, por lo tanto, age tendrá 3 funciones binarias, cada una correspondiente a un grupo de edad, y así sucesivamente. Entonces, un hombre de 28 años de EE. UU. Se representaría como 010 10100 (010-> Grupo de edad 25-35, 10 -> Hombre, 100 -> EE. UU.)
¿Cuál podría ser la mejor manera de representar características aquí? Además, me di cuenta en algunos e.gs. de sklearn que todas las características han sido escaladas / normalizadas de alguna manera, por ejemplo, el género está representado por dos valores, 0.0045 y -.0.0045 para hombres y mujeres. No tengo idea de cómo hacer escala / mormalización como esta?
fuente
Respuestas:
Caso binario
Si desea que sus características sean binarias, las buenas representaciones para los valores categóricos (resp. Reales ) son la codificación en caliente (resp. Termómetro ). Usted no necesita normalizarlos.
Para la una caliente codificación de una categórica función, sólo tiene que reservar un bit para cada clase. La longitud de esta codificación es, por lo tanto, el número de clases de su característica. Tomemos su ejemplo de país,
Para la codificación del termómetro de una característica real / entera , debe elegir una longitud y los umbrales. Para su ejemplo de edad, ha elegido dividir la edad de acuerdo con los umbrales 18,25 y 35. La codificación será
Caso continuo
Como dijo BGreene, debería normalizar este valor para mantener una media de 0 y una desviación estándar de 1, lo que asegura la estabilidad de muchos modelos de regresión. Para hacer eso, simplemente reste la media empírica y divida por la desviación estándar empírica.
fuente