Recientemente, descubrí que en la literatura de econometría aplicada, cuando se trata de problemas de selección de características, no es raro realizar LASSO seguido de una regresión de OLS utilizando las variables seleccionadas.
Me preguntaba cómo podemos calificar la validez de tal procedimiento. ¿Causará problemas como variables omitidas? ¿Alguna prueba que demuestre que es más eficiente o que los resultados son más interpretables?
Aquí hay algunas discusiones relacionadas:
Usando árboles después de la selección de variables usando Lazo / Aleatorio
Si, como se señaló, dicho procedimiento no es correcto en general, ¿por qué todavía hay tantas investigaciones que lo hacen? ¿Puedo decir que es solo una regla general, una solución de compromiso, debido a algunas de las propiedades incómodas del estimador LASSO y la afición de las personas hacia los MCO?
Respuestas:
Hubo una pregunta similar hace unos días que tenía la referencia relevante:
Al menos para mí, el documento es una lectura bastante difícil porque las pruebas detrás de esto son relativamente simples y bastante elaboradas. Cuando esté interesado en estimar un modelo como
donde es su resultado, T i es un efecto de tratamiento de interés y X i es un vector de controles potenciales. El parámetro objetivo es α . Asumiendo que la mayor parte de la variación en su resultado se explica por el tratamiento y un conjunto escaso de controles, Belloni et al. (2014) desarrollan un método de selección doblemente robusto que proporciona estimaciones puntuales correctas e intervalos de confianza válidos. Sin embargo, este supuesto de escasez es importante.yyo Tyo Xyo α
Proporcionan pruebas de por qué esto funciona y por qué obtiene los intervalos de confianza correctos, etc. de este método. También muestran que si solo realiza una selección LASSO en la regresión anterior y luego regresa el resultado del tratamiento y las variables seleccionadas, obtiene estimaciones puntuales incorrectas e intervalos de confianza falsos, como ya dijo Björn.
El propósito de hacer esto es doble: comparar su modelo inicial, donde la selección de variables fue guiada por intuición o teoría, con el modelo de selección doblemente robusto, le da una idea de cuán bueno fue su primer modelo. Quizás su primer modelo olvidó algunos términos importantes al cuadrado o de interacción y, por lo tanto, sufre de forma funcional mal especificada o variables omitidas. En segundo lugar, Belloni et al. (2014) puede mejorar la inferencia en su parámetro objetivo porque los regresores redundantes fueron penalizados en su procedimiento.
fuente
Para realizar una selección variable y luego volver a ejecutar un análisis, como si no hubiera sucedido una selección variable y el modelo seleccionado hubiera sido diseñado desde el principio, generalmente conduce a tamaños de efectos exagerados, valores p inválidos e intervalos de confianza con una cobertura nominal inferior. Quizás si el tamaño de la muestra es muy grande y hay algunos efectos enormes y muchos efectos nulos, LASSO + OLS podría no verse muy afectado por esto, pero aparte de eso no puedo ver ninguna justificación razonable y en ese caso el LASSO las estimaciones también deberían estar bien.
fuente