[Se hizo una pregunta similar aquí sin respuestas]
He ajustado un modelo de regresión logística con regularización L1 (regresión logística Lasso) y me gustaría probar la significación de los coeficientes ajustados y obtener sus valores p. Sé que las pruebas de Wald (por ejemplo) son una opción para probar la importancia de los coeficientes individuales en una regresión completa sin regularización, pero con Lasso creo que surgen más problemas que no permiten aplicar las fórmulas habituales de Wald. Por ejemplo, las estimaciones de varianza necesarias para la prueba no siguen las expresiones habituales. El papel original de Lasso
http://statweb.stanford.edu/~tibs/lasso/lasso.pdf
sugiere un procedimiento basado en bootstrap para estimar la variación de coeficientes, que (nuevamente, creo) puede ser necesaria para las pruebas (sección 2.5, último párrafo de la página 272 y comienzo de 273):
Un enfoque es a través del bootstrap: o puede ser reparado o podemos optimizarlo sobre para cada muestra de bootstrap. Arreglar es análogo a seleccionar el mejor subconjunto ( de características ) y luego usar el error estándar de mínimos cuadrados para ese subconjunto
Lo que entiendo es: ajustar una regresión Lasso repetidamente a todo el conjunto de datos hasta que encontremos el valor óptimo para el parámetro de regularización (esto no es parte del bootstrap), y luego usar solo las características seleccionadas por el Lazo para ajustar las regresiones OLS a las submuestras de los datos y aplicar las fórmulas habituales para calcular las variaciones de cada una de esas regresiones. (¿Y luego qué debo hacer con todas esas variaciones de cada coeficiente para obtener la estimación de la variación final de cada coeficiente?)
Además, ¿es correcto usar las pruebas de significación habituales (por ejemplo, la prueba de Wald que utiliza las betas y variaciones estimadas) con las estimaciones de Losso de los coeficientes y las variaciones estimadas de bootstrap? Estoy bastante seguro de que no lo es, pero cualquier ayuda (use una prueba diferente, use un enfoque más directo, lo que sea ...) es más que bienvenida.
De acuerdo con las respuestas aquí , sospecho que la inferencia y los valores p simplemente no se pueden obtener. En mi caso, los valores p son un requisito externo (aunque el uso de la regularización L1 fue mi elección).
Muchas gracias
EDITAR ¿Qué sucede si ajusto una regresión logística OLS utilizando solo las variables seleccionadas por una ejecución anterior de la regresión logística Lasso? Aparentemente (ver aquí ),
No es necesario volver a ejecutar el modelo después de realizar la validación cruzada (solo obtiene los coeficientes de la salida de cv.glmnet) y, de hecho, si se ajusta al nuevo modelo de regresión logística sin penalización, entonces está frustrando el propósito de usar lazo
Pero, ¿qué sucede si hago esto con el único propósito de poder calcular los valores p mientras se mantiene baja la cantidad de variables? ¿Es un enfoque muy sucio? :-)
Respuestas:
El problema con el uso de las pruebas de significancia habituales, es que asumen lo nulo, es decir, que hay variables aleatorias, sin relación con las variables de resultado. Sin embargo, lo que tiene con el lazo es un montón de variables aleatorias, de las cuales selecciona las mejores con el lazo, también las betas se reducen. Por lo tanto, no puede usarlo, los resultados serán sesgados.
Hasta donde sé, el bootstrap no se usa para obtener la estimación de la varianza, sino para obtener las probabilidades de que se seleccione una variable. Y esos son sus valores p. Consulte el libro gratuito de Hasie, Estadística de aprendizaje con la dispersión, capítulo 6 está hablando de lo mismo. http://web.stanford.edu/~hastie/StatLearnSparsity/
Consulte también este documento para conocer otras formas de obtener valores p del lazo https://arxiv.org/pdf/1408.4026.pdf Probablemente haya más
fuente
El problema con la realización de la inferencia después de la selección del modelo es que está seleccionando las variables más predictivas y luego realizando la inferencia como si se hubieran seleccionado independientemente de los datos. Es posible demostrar que reajustar el modelo de regresión después de hacer la selección del modelo con el lazo (¡o cualquier otro método de selección del modelo!) Puede conducir a estimaciones imparciales (que es una de las razones por las cuales una aproximación gaussiana simple a menudo fallará para intervalos de confianza)n−−√
Afortunadamente, ha habido mucho progreso en los últimos años en el desarrollo de métodos de inferencia que dan cuenta de la post-selección. Algunas referencias relevantes para su caso son: http://projecteuclid.org/euclid.aos/1460381681 y, https://arxiv.org/pdf/1602.07358.pdf . Las técnicas discutidas en estas referencias se implementan en el paquete R selectiveference- https://cran.r-project.org/web/packages/selectiveInference/index.html . El paquete selectivo de inferencia debe producir los intervalos de confianza válidos que necesita.
fuente