Mis datos consisten en varias mediciones continuas y algunas variables ficticias que representan los años en que se realizaron las mediciones. Ahora, quiero aprender una red neuronal con los datos. Por lo tanto, estoy normalizando zScore todas las variables, incluidas las variables ficticias. Sin embargo, me pregunto si este es un enfoque razonable, porque la normalización de las variables ficticias altera sus rangos, lo que supongo que las hace menos comparables si sus distribuciones difieren. Por otro lado, no normalizar las variables ficticias también podría ser cuestionable, porque sin normalización su influencia en la salida de la red podría ser subóptima.
¿Cuál es el mejor enfoque para tratar con variables ficticias, normalizándolas (zScore) o simplemente dejándolas como están?
fuente
Respuestas:
Sería necesaria la normalización si está realizando alguna forma de medición de similitud.
Las variables ficticias por su naturaleza actúan como un interruptor binario. Codificarlo como (0,1) o (-.5, .5) no debería tener impacto en las relaciones que exhibe con una variable dependiente, si lo que está tratando de hacer es alguna forma o regresión o clasificación.
Importaría si realiza clustering porque dependería de la escala.
fuente
Normalizar variables ficticias no tiene sentido. Por lo general, la normalización se usa cuando las variables se miden en diferentes escalas, de modo que no es posible una comparación adecuada. Sin embargo, con las variables ficticias, se coloca solo una información binaria en el modelo y, si se normaliza, se pierde la información del impacto, por ejemplo, un año.
fuente