¿Es realmente necesaria la estandarización antes de Lasso?

28

He leído tres razones principales para estandarizar variables antes de algo como la Lassoregresión:

1) Interpretabilidad de coeficientes.

2) Capacidad para clasificar la importancia del coeficiente según la magnitud relativa de las estimaciones del coeficiente posterior a la contracción.

3) No hay necesidad de intercepción.

Pero me pregunto sobre el punto más importante. ¿Tenemos razones para pensar que la estandarización mejoraría la generalización del modelo fuera de la muestra? Además, no me importa si no necesito una intercepción en mi modelo; agregar uno no me hace daño.

Jase
fuente
1
Aclaración: parece que quiere preguntar: "Siempre que la estandarización sea opcional (uno de los casos especiales en los que los resultados no están sesgados por diferentes magnitudes), ¿la estandarización mejorará la generalización fuera de la muestra?" ¿Es esto correcto?
Drew75
@ Drew75 Prefiero un desglose de casos, por ejemplo, ¿ayuda cuando los resultados están "sesgados por diferentes magnitudes", ayuda cuando los resultados no están sesgados, etc., la mejor respuesta cubrirá diferentes situaciones.
Jase
1
Entonces su pregunta no es sobre Lasso (porque en general la estandarización es necesaria antes de Lasso). Es mas general. Quizás cambie el título y la primera oración de la pregunta.
Drew75
@Drew: Eso es más bien un cuestionamiento: ¿Por qué es necesario (cuando no lo es)? ¿Qué significa sesgar los resultados (en comparación con qué?) Creo que la pregunta está bien tal como está.
Scortchi - Restablece a Monica
@ Drew75 Mi pregunta es sobre Lasso.
Jase

Respuestas:

21

La regresión de lazo pone restricciones en el tamaño de los coeficientes asociados a cada variable. Sin embargo, este valor dependerá de la magnitud de cada variable. Por lo tanto, es necesario centrar y reducir, o estandarizar, las variables.

El resultado de centrar las variables significa que ya no hay una intersección. Esto se aplica igualmente a la regresión de crestas, por cierto.

Otra buena explicación es esta publicación: necesidad de centrar y estandarizar datos en regresión

Drew75
fuente
Esto no es una respuesta o una respuesta extremadamente indirecta a mi pregunta. Explique el vínculo entre su respuesta y la generalización fuera de la muestra (que era la pregunta).
Jase
10
@Jase: aborda la razón principal para la estandarización, que omitió de su lista: si desea eliminar predictores con coeficientes pequeños (o usar un término de penalización dependiendo de la magnitud del coeficiente), debe decidir qué cuenta como "pequeño ". Aunque la estandarización no es obligatoria antes de LASSO u otros métodos de regresión penalizados, rara vez es el caso que las escalas originales en las que se miden los predictores sean útiles para este propósito.
Scortchi - Restablece a Monica
3
Y el punto sobre el centrado es que generalmente no desea soltar o reducir la intersección.
Scortchi - Restablece a Monica
2
λ
2
En términos muy generales, cuánto reducirá en general va a afectar la generalización a muestras aleatorias aleatorias; la decisión algo arbitraria de cuánto reducir cada predictor en relación con los demás afectará la generalización a nuevas muestras de poblaciones similares, donde los coeficientes son un poco diferentes, donde la distribución de predictores no es necesariamente muy similar en el conjunto de entrenamiento , & c. (Por supuesto, su pregunta merece una respuesta más completa.)
Scortchi - Restablezca a Monica
2

El parámetro de penalización L1 es una suma de términos beta absolutos. Si las variables son todas de diferente dimensionalidad, entonces este término no es realmente aditivo, aunque matemáticamente no hay ningún error.

Sin embargo, no veo las variables ficticias / categóricas que sufren este problema y creo que no es necesario estandarizarlas. estandarizarlos puede reducir la interpretabilidad de las variables

Sumit Dhar
fuente