He leído tres razones principales para estandarizar variables antes de algo como la Lasso
regresión:
1) Interpretabilidad de coeficientes.
2) Capacidad para clasificar la importancia del coeficiente según la magnitud relativa de las estimaciones del coeficiente posterior a la contracción.
3) No hay necesidad de intercepción.
Pero me pregunto sobre el punto más importante. ¿Tenemos razones para pensar que la estandarización mejoraría la generalización del modelo fuera de la muestra? Además, no me importa si no necesito una intercepción en mi modelo; agregar uno no me hace daño.
Respuestas:
La regresión de lazo pone restricciones en el tamaño de los coeficientes asociados a cada variable. Sin embargo, este valor dependerá de la magnitud de cada variable. Por lo tanto, es necesario centrar y reducir, o estandarizar, las variables.
El resultado de centrar las variables significa que ya no hay una intersección. Esto se aplica igualmente a la regresión de crestas, por cierto.
Otra buena explicación es esta publicación: necesidad de centrar y estandarizar datos en regresión
fuente
El parámetro de penalización L1 es una suma de términos beta absolutos. Si las variables son todas de diferente dimensionalidad, entonces este término no es realmente aditivo, aunque matemáticamente no hay ningún error.
Sin embargo, no veo las variables ficticias / categóricas que sufren este problema y creo que no es necesario estandarizarlas. estandarizarlos puede reducir la interpretabilidad de las variables
fuente