Obtuve de otras publicaciones que no se puede atribuir 'importancia' o 'importancia' a las variables predictoras que ingresan en un modelo de lazo porque calcular los valores p o las desviaciones estándar de esas variables todavía es un trabajo en progreso.
Bajo ese razonamiento, ¿es correcto afirmar que uno NO PUEDE decir que las variables que fueron EXCLUIDAS del modelo de lazo son 'irrelevantes' o 'insignificantes'?
Si es así, ¿qué puedo afirmar sobre las variables que están excluidas o incluidas en un modelo de lazo? En mi caso específico, seleccioné el parámetro de ajuste lambda repitiendo la validación cruzada 10 veces 100 veces para reducir randonmess y promediar las curvas de error.
ACTUALIZACIÓN1: Seguí una sugerencia a continuación y volví a ejecutar el lazo usando muestras de bootstrap. Lo probé con 100 muestras (esa cantidad era lo que mi computadora podía manejar de la noche a la mañana) y surgieron algunos patrones. 2 de mis 41 variables ingresaron al modelo más del 95% de las veces, 3 variables más del 90% y 5 variables más del 85%. Esas 5 variables se encuentran entre las 9 que ingresaron al modelo cuando lo ejecuté con la muestra original y fueron las que tenían los valores de coeficiente más altos en ese momento. Si ejecuto el lazo con, digamos, 1000 muestras de arranque y se mantienen esos patrones, ¿cuál sería la mejor manera de presentar mis resultados?
¿Son suficientes 1000 muestras de bootstrap? (El tamaño de mi muestra es 116)
¿Debería enumerar todas las variables y con qué frecuencia ingresan al modelo, y luego argumentar que las que ingresan con más frecuencia tienen más probabilidades de ser significativas?
¿Es eso lo más lejos que puedo llegar con mis reclamos? Debido a que es un trabajo en progreso (ver arriba), no puedo usar un valor de corte, ¿verdad?
ACTUALIZACIÓN2: Siguiendo una sugerencia a continuación, he calculado lo siguiente: en promedio, el 78% de las variables en el modelo original ingresaron los modelos generados para las 100 muestras de arranque. Por otro lado, solo el 41% al revés. Esto tiene que ver en gran parte con el hecho de que los modelos generados para las muestras de bootstrap tendieron a incluir muchas más variables (17 en promedio) que el modelo original (9).
ACTUALIZACIÓN3: Si pudiera ayudarme a interpretar los resultados que obtuve de bootstrapping y la simulación de Monte Carlo, eche un vistazo a esta otra publicación.