Estoy tratando de hacer una selección de modelo en algunos predictores candidatos que usan LASSO con un resultado continuo. El objetivo es seleccionar el modelo óptimo con el mejor rendimiento de predicción, que generalmente se puede hacer mediante validación cruzada K-fold después de obtener una ruta de solución de los parámetros de ajuste de LASSO. El problema aquí es que los datos provienen de un complejo diseño de encuestas en varias etapas (NHANES), con muestreo y estratificación por conglomerados. La parte de estimación no es difícil ya que glmnet
en R puede tomar pesos de muestreo. Pero la parte de validación cruzada es menos clara para mí, ya que las observaciones ahora ya no son válidas, y ¿cómo puede el procedimiento tener en cuenta los pesos de muestreo que representan una población finita?
Entonces mis preguntas son:
1) ¿Cómo llevar a cabo la validación cruzada K-fold con datos de encuestas complejas para seleccionar el parámetro de ajuste óptimo? Más específicamente, ¿cómo dividir adecuadamente los datos de muestra en conjuntos de capacitación y validación? ¿Y cómo definir la estimación del error de predicción?
2) ¿Hay alguna forma alternativa de seleccionar el parámetro de ajuste óptimo?
fuente
Respuestas:
No tengo una respuesta detallada, solo algunos consejos para trabajar que he querido leer:
Puede echar un vistazo a McConville (2011) en LASSO de encuestas complejas, para asegurarse de que el uso de LASSO sea apropiado para sus datos. Pero tal vez no sea un gran problema si está haciendo LASSO solo para la selección de variables, y luego ajusta algo más a las variables restantes.
Para la validación cruzada con datos de encuestas complejas (aunque no LASSO), McConville también cita a Opsomer & Miller (2005) y You (2009). Pero sus métodos parecen usar un CV de dejar uno afuera, no K-fold.
Leave-one-out debería ser más simple de implementar con encuestas complejas --- hay menos preocupación sobre cómo dividir los datos de manera adecuada. (Por otro lado, puede llevar más tiempo ejecutar K-fold. Y si su objetivo es la selección del modelo, se sabe que dejar una salida puede ser peor que K-fold para muestras grandes).
fuente
EDITAR por OP: No aplicable a datos de encuestas complejas.
La función cv.glmet podría ayudarlo a realizar la validación cruzada requerida. El valor lambda.min es el valor de λ donde el error CV es mínimo. Lambda.1se representa el valor de λ en la búsqueda que fue más simple que el mejor modelo (lambda.min), pero que tiene un error dentro de 1 error estándar del mejor modelo.
Se puede acceder al valor lambda.min desde el propio modelo como se muestra a continuación.
fuente