Para el LASSO (y otros procedimientos de selección de modelos) es crucial reescalar los predictores. La recomendación general que sigo es simplemente usar una normalización de media 0 desviación estándar 1 para variables continuas. Pero, ¿qué hay que ver con los maniquíes?
Por ejemplo, algunos ejemplos aplicados de la misma (excelente) escuela de verano que relacioné con reescalar variables continuas para estar entre 0 y 1 (aunque no es excelente con valores atípicos), probablemente para ser comparables a los dummies. Pero incluso eso no garantiza que los coeficientes sean del mismo orden de magnitud, y por lo tanto penalizados de manera similar, la razón clave para la reescalado, ¿no?
Respuestas:
Según Tibshirani ( EL MÉTODO LASSO PARA LA SELECCIÓN VARIABLE EN EL MODELO COX, Statistics in Medicine, VOL. 16, 385-395 (1997) ), quien literalmente escribió el libro sobre los métodos de regularización, debería estandarizar las variables ficticias. Sin embargo, entonces pierde la interpretación directa de sus coeficientes. Si no lo hace, sus variables no están en igualdad de condiciones. Básicamente, está inclinando las escalas a favor de sus variables continuas (lo más probable). Entonces, si su objetivo principal es la selección del modelo, entonces este es un error notorio. Sin embargo, si está más interesado en la interpretación, quizás esta no sea la mejor idea.
La recomendación está en la página 394:
fuente
También vale la pena echarle un vistazo a la publicación de blog de Andrew Gelman, Cuándo estandarizar las entradas de regresión y cuándo dejarlas en paz . Esta parte en particular es relevante:
fuente
x -> x / 2
Esto es más un comentario, pero demasiado largo. Uno de los softwares más utilizados para el lazo (y amigos) es R's
glmnet
. Desde la página de ayuda, impresa por?glmnet
:fuente