¿Se debe escalar uno de los vectores calientes con atributos numéricos?

20

En el caso de tener una combinación de atributos categóricos y numéricos, generalmente convierto los atributos categóricos en vectores calientes. Mi pregunta es si dejo esos vectores como están y escalo los atributos numéricos a través de la estandarización / normalización, o ¿debería escalar los vectores calientes junto con los atributos numéricos?

Suresh Kasipandy
fuente

Respuestas:

11

Una vez convertidos a forma numérica, los modelos no responden de manera diferente a las columnas de codificación directa que a cualquier otro dato numérico. Por lo tanto, existe un claro precedente para normalizar los valores {0,1} si lo está haciendo por cualquier motivo para preparar otras columnas.

El efecto de hacerlo dependerá de la clase de modelo y el tipo de normalización que aplique, pero he notado algunas mejoras (pequeñas) al escalar a 0, std 1 para datos categóricos codificados en caliente, al entrenar redes neuronales.

También puede marcar la diferencia para las clases de modelos basadas en métricas de distancia.

Desafortunadamente, como la mayoría de este tipo de opciones, a menudo tiene que probar ambos enfoques y tomar el que tenga la mejor métrica.

Neil Slater
fuente
1
La redacción fue un poco confusa. ¿Está diciendo que solo normaliza columnas codificadas en caliente si ha normalizado las columnas que no son ohe?
Info5ek
@ Info5ek: estoy diciendo que podría ser mejor normalizar las columnas codificadas en caliente, y si ya lo está haciendo para otras columnas, entonces también puede intentarlo. No hay reglas fijas para esto, demasiado depende del problema en cuestión.
Neil Slater