Mi situación:
- pequeño tamaño de muestra: 116
- variable de resultado binaria
- larga lista de variables explicativas: 44
- las variables explicativas no vinieron de la parte superior de mi cabeza; su elección se basó en la literatura.
- La mayoría de los casos en la muestra y la mayoría de las variables tienen valores faltantes.
Enfoque para la selección de características elegidas: LASSO
El paquete glmnet de R no me permite ejecutar la rutina glmnet, aparentemente debido a la existencia de valores faltantes en mi conjunto de datos. Parece que hay varios métodos para manejar los datos faltantes, por lo que me gustaría saber:
- ¿LASSO impone alguna restricción en términos del método de imputación que puedo usar?
- ¿Cuál sería la mejor apuesta para el método de imputación? Idealmente, necesito un método que pueda ejecutar en SPSS (preferiblemente) o R.
ACTUALIZACIÓN1: De algunas de las respuestas a continuación se hizo evidente que he tratado con problemas más básicos antes de considerar los métodos de imputación. Me gustaría agregar aquí nuevas preguntas al respecto. En la respuesta que sugiere la codificación como valor constante y la creación de una nueva variable para tratar los valores 'no aplicables' y el uso del lazo grupal:
- ¿Diría que si uso LASSO grupal, podría usar el enfoque sugerido para predictores continuos y también para predictores categóricos? Si es así, supongo que sería equivalente a crear una nueva categoría; desconfío de que esto pueda introducir un sesgo.
- ¿Alguien sabe si el paquete glmnet de R admite el grupo LASSO? Si no, ¿alguien sugeriría otro que lo haga en combinación con la regresión logística? Se pueden encontrar varias opciones que mencionan el grupo LASSO en el repositorio de CRAN, ¿alguna sugerencia de la más adecuada para mi caso? Tal vez SGL?
Este es un seguimiento de una pregunta mía anterior ( ¿Cómo seleccionar un subconjunto de variables de mi larga lista original para realizar un análisis de regresión logística? ).
OBS: No soy un estadístico.
fuente
Respuestas:
Supongamos que el predictor lineal para la respuesta viene dado por
que resuelve a
El uso de LASSO presenta dos problemas:
fuente
La imputación múltiple nunca es un mal enfoque. También puede hacer la información completa máxima verosimilitud. Buena revisión y comparación aquí y aquí .
Pero si va por ese camino, considere usar Stan para ajustar la imputación de ML simultáneamente con su regresión como un solo modelo bayesiano, ya que LASSO es un caso especial de regresión bayesiana de todos modos .
fuente
mi
que podría ayudarte.Amelia
ymice
.El comando CATREG en Estadísticas maneja los datos que faltan con LASSO. Puede excluir casos por lista o imputar el procedimiento Aunque su nombre sugiere que es para variables categóricas, puede establecer la escala en Numérico para manejar el caso continuo.
fuente
PROC CATREG
, supongo.También puede considerar el enfoque simple presentado en el siguiente documento:
Loh, PL y Wainwright, MJ (2011). Regresión de alta dimensión con datos ruidosos y faltantes: garantías demostrables sin convexidad . En Avances en sistemas de procesamiento de información neuronal (pp. 2726-2734).
fuente