Estoy usando Lasso para la selección de características en una configuración dimensional relativamente baja (n >> p). Después de ajustar un modelo de lazo, quiero usar las covariables con coeficientes distintos de cero para ajustar un modelo sin penalización. Estoy haciendo esto porque quiero estimaciones imparciales que Lasso no puede darme. También me gustaría valores p e intervalos de confianza para la estimación imparcial.
Tengo problemas para encontrar literatura sobre este tema. La mayor parte de la literatura que encuentro trata sobre poner intervalos de confianza en las estimaciones de Lasso, no un modelo reajustado.
Por lo que he leído, simplemente reajustar un modelo usando todo el conjunto de datos conduce a valores p / valores estándar poco realistas. En este momento, la división de muestras (al estilo de Wasserman y Roeder (2014) o Meinshausen et al. (2009)) parece ser un buen curso de acción, pero estoy buscando más sugerencias.
¿Alguien ha encontrado este problema? Si es así, ¿podría darnos algunas sugerencias?
Respuestas:
Para agregar a las respuestas anteriores. Definitivamente deberías revisar el trabajo reciente de Tibshirani y sus colegas. Han desarrollado un marco riguroso para inferir valores p corregidos por selección e intervalos de confianza para métodos de tipo lazo y también proporcionan un paquete R.
Ver:
Lee, Jason D. y col. "Inferencia exacta posterior a la selección, con aplicación al lazo". The Annals of Statistics 44.3 (2016): 907-927. ( https://projecteuclid.org/euclid.aos/1460381681 )
Taylor, Jonathan y Robert J. Tibshirani. "Aprendizaje estadístico e inferencia selectiva". Actas de la Academia Nacional de Ciencias 112.25 (2015): 7629-7634.
Paquete R:
https://cran.r-project.org/web/packages/selectiveInference/index.html
fuente
En general, volver a montar sin penalización después de haber realizado una selección variable a través del Lazo se considera "trampa", ya que ya ha examinado los datos y los valores p resultantes y los intervalos de confianza no son válidos en el sentido habitual.
Este artículo muy reciente analiza exactamente lo que desea hacer y explica las condiciones bajo las cuales la colocación de un lazo, la elección de las variables importantes y la reinstalación sin penalización por lazo lleva a una validezpag -valores e intervalos de confianza. Su razonamiento intuitivo es que
Por lo tanto, mirar dos veces los datos no es un problema. Deberá ver si para su problema las condiciones establecidas en la retención de papel o no.
(También hay muchas referencias útiles en el documento)
Referencia:
Zhao, S., Shojaie, A. y Witten, D. (2017). En defensa de lo indefendible: un acercamiento muy ingenuo a la inferencia de alta dimensión. Recuperado de: https://arxiv.org/pdf/1705.05543.pdf
fuente
Quería agregar algunos artículos de la literatura de aprendizaje automático / doble ortogonal que se está volviendo popular en la literatura de Econometría Aplicada.
Belloni, Alexandre, Victor Chernozhukov y Christian Hansen. "Inferencia sobre los efectos del tratamiento después de la selección entre controles de alta dimensión". The Review of Economic Studies 81.2 (2014): 608-650.
Este artículo aborda las propiedades teóricas de una estimación OLS del efecto de una variable después de seleccionar los "otros" controles usando LASSO.
Victor Chernozhukov, Denis Chetverikov, Mert Demirer, Esther Duflo, Christian Hansen, Whitney Newey, James Robins, Aprendizaje automático doble / desbarbado para el tratamiento y parámetros estructurales, The Econometrics Journal, Volumen 21, Número 1, 1 de febrero de 2018, Páginas C1 – C68 , https://doi.org/10.1111/ectj.12097
Esto desarrolla la teoría integral para utilizar una serie de métodos no paramétricos (algoritmos ML) para controlar de forma no lineal un parámetro molesto de alta dimensión (factores de confusión) y luego estudiar el impacto de una covariable específica en el resultado. Se ocupan de marcos parcialmente lineales y marcos completamente paramétricos. También consideran situaciones en las que se confunde la variable de interés.
fuente