si se debe reescalar los predictores indicadores / binarios / ficticios para LASSO

30

Para el LASSO (y otros procedimientos de selección de modelos) es crucial reescalar los predictores. La recomendación general que sigo es simplemente usar una normalización de media 0 desviación estándar 1 para variables continuas. Pero, ¿qué hay que ver con los maniquíes?

Por ejemplo, algunos ejemplos aplicados de la misma (excelente) escuela de verano que relacioné con reescalar variables continuas para estar entre 0 y 1 (aunque no es excelente con valores atípicos), probablemente para ser comparables a los dummies. Pero incluso eso no garantiza que los coeficientes sean del mismo orden de magnitud, y por lo tanto penalizados de manera similar, la razón clave para la reescalado, ¿no?

László
fuente
2
Respuesta corta: no, no cambiar la escala de dummies
Affine
44
Relacionado con esto
julio
@julieth, muchas gracias, avísame si encontraste algunas respuestas desde entonces.
László

Respuestas:

27

Según Tibshirani ( EL MÉTODO LASSO PARA LA SELECCIÓN VARIABLE EN EL MODELO COX, Statistics in Medicine, VOL. 16, 385-395 (1997) ), quien literalmente escribió el libro sobre los métodos de regularización, debería estandarizar las variables ficticias. Sin embargo, entonces pierde la interpretación directa de sus coeficientes. Si no lo hace, sus variables no están en igualdad de condiciones. Básicamente, está inclinando las escalas a favor de sus variables continuas (lo más probable). Entonces, si su objetivo principal es la selección del modelo, entonces este es un error notorio. Sin embargo, si está más interesado en la interpretación, quizás esta no sea la mejor idea.

La recomendación está en la página 394:

El método de lazo requiere la estandarización inicial de los regresores, de modo que el esquema de penalización sea justo para todos los regresores. Para los regresores categóricos, uno codifica el regresor con variables ficticias y luego estandariza las variables ficticias. Sin embargo, como señaló un árbitro, la escala relativa entre variables continuas y categóricas en este esquema puede ser algo arbitraria.

rocrat
fuente
3
¿podría proporcionar una referencia precisa de dónde Tibshirani sugiere estandarizar los maniquíes?
seanv507
@ seanv507 "... uno codifica los regresores con variables ficticias y luego estandariza las variables ficticias ". Creo que la explicación de los demócratas es correcta: en general , desea que todos los predictores, incluidos los dummies, tengan la misma escala y varianza para que la penalización sea justa.
Robert Kubrick
1
@RobertKubrick No estoy de acuerdo. La razón fundamental para la regularización es que los pequeños cambios deberían tener pequeños efectos. Entonces, el caso ideal es que todas sus variables tienen una escala física natural con respecto a su variable dependiente y no las normaliza. Por lo general, no conocemos la escala correcta, por lo que recurrimos a la normalización. Sin embargo, las variables categóricas tienen una escala tan natural, es decir, la probabilidad de que sean 0 o 1: diría que una variable que es la mayoría de las veces 0, es menos importante que una variable que cambia entre 0/1. En cambio, la respuesta de Jeff parece apropiada.
seanv507
8

También vale la pena echarle un vistazo a la publicación de blog de Andrew Gelman, Cuándo estandarizar las entradas de regresión y cuándo dejarlas en paz . Esta parte en particular es relevante:

Para comparar coeficientes para diferentes predictores dentro de un modelo, la estandarización obtiene el visto bueno. (Aunque no estandarizo las entradas binarias. Las codifico como 0/1, y luego estandarizo todas las demás entradas numéricas dividiéndolas entre dos desviaciones estándar, poniéndolas aproximadamente en la misma escala que las variables 0/1).

Jeff
fuente
1
Y cuando dice "no estandarizar las entradas binarias" , parece que se refiere a cualquier grupo de variables único, es decir, ¿alguna variable ficticia para variables categóricas?
smci
2
pags(1-pags)pags=0.5 0.50.25
x -> x / 2σ
no importa, parece que todo se explica aquí: stat.columbia.edu/~gelman/research/unpublished/…
Alex
3

Esto es más un comentario, pero demasiado largo. Uno de los softwares más utilizados para el lazo (y amigos) es R's glmnet. Desde la página de ayuda, impresa por ?glmnet:

estandarizar: indicador lógico para x estandarización variable, antes de ajustar la secuencia del modelo Los coeficientes siempre se devuelven en la escala original. El valor predeterminado es 'estandarizar = VERDADERO'. Si las variables ya están en las mismas unidades, es posible que no desee estandarizar. Vea los detalles a continuación para la estandarización con 'familia = "gaussiano"

X

kjetil b halvorsen
fuente