Estoy construyendo una regresión logística en R usando el método LASSO con las funciones cv.glmnet
para seleccionar lambda
y glmnet
para el modelo final.
Ya conozco todas las desventajas con respecto a la selección automática del modelo, pero necesito hacerlo de todos modos.
Mi problema es que necesito incluir variables factoriales (categóricas) en el modelo, ¿hay alguna forma de hacerlo sin crear muchas variables ficticias? Estas variables son casi todas las cadenas y no números.
Respuestas:
glmnet no puede tomar el factor directamente, necesita transformar las variables de factor en dummies. Es solo un paso simple usando model.matrix, por ejemplo:
alpha = 1 construirá un LASSO.
fuente