Sé que esto enturbiaría la inferencia estadística, pero en realidad solo me preocupa acercarme lo más posible a un modelo preciso.
Tengo una variable de resultado dicotómica, con un gran conjunto de predictores dicotómicos. Estoy pensando que me gustaría intentar usar LASSO para seleccionar qué variables debo incluir en mi modelo, luego ingresar esas variables seleccionadas en una regresión Logit.
¿Hay algo que estoy pasando por alto cuando se trata de la practicidad de este enfoque?
model-selection
lasso
logit
EvKohl
fuente
fuente
Respuestas:
¡Hay un paquete en R llamado glmnet que puede adaptarse a un modelo logístico de LASSO para usted! Esto será más sencillo que el enfoque que está considerando. Más precisamente, glmnet es un híbrido entre LASSO y la regresión de Ridge, pero puede establecer un parámetroα = 1 hacer un modelo puro de LASSO. Como está interesado en la regresión logística, establecerá family = "binomial".
Puede leer más aquí: http://web.stanford.edu/~hastie/glmnet/glmnet_alpha.html#intro
fuente
stata lasso logistic
me da homepages.ucl.ac.uk/~ucakgam/stata.html como primer resultado.Primero, no hay garantía de que un modelo de probabilidad lineal se aproxime muy bien a un modelo logit; en consecuencia, el subconjunto de variables seleccionadas para una puede ser menos apropiado para la otra.
En segundo lugar, el reajuste no aplica contracción alguna, a pesar de la selección variable que se realiza en el primer paso; arriesgando graves calibraciones erróneas y quizás una pequeña pérdida de discriminación.
Es posible que pueda validar el procedimiento en un conjunto de datos en particular, pero no parece seguro en general, ni ofrecer ninguna ventaja sobre una regresión logística gradual. Y, por supuesto, es innecesario; LASSOL1 -norm pena se puede utilizar para la contracción y selección en regresión logística.
fuente