Me gustaría encontrar predictores para una variable dependiente continua de un conjunto de 30 variables independientes. Estoy usando la regresión Lasso como se implementa en el paquete glmnet en R. Aquí hay un código ficticio:
# generate a dummy dataset with 30 predictors (10 useful & 20 useless)
y=rnorm(100)
x1=matrix(rnorm(100*20),100,20)
x2=matrix(y+rnorm(100*10),100,10)
x=cbind(x1,x2)
# use crossvalidation to find the best lambda
library(glmnet)
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
l <- cv$lambda.min
alpha=1
# fit the model
fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100)
res <- predict(fits, s=l, type="coefficients")
res
Mi pregunta es cómo interpretar el resultado:
¿Es correcto decir que en el resultado final todos los predictores que muestran un coeficiente diferente de cero están relacionados con la variable dependiente?
¿Sería un informe suficiente en el contexto de una publicación de revista? ¿O se espera que proporcione estadísticas de prueba para la importancia de los coeficientes? (El contexto es la genética humana)
¿Es razonable calcular valores p u otro estadístico de prueba para reclamar significancia? ¿Cómo sería eso posible? ¿Se implementa un procedimiento en R?
¿Sería una forma adecuada de visualizar estos datos una gráfica de regresión simple (puntos de datos trazados con un ajuste lineal) para cada predictor?
¿Quizás alguien pueda proporcionar algunos ejemplos fáciles de artículos publicados que muestren el uso de Lasso en el contexto de algunos datos reales y cómo informar esto en una revista?
cv
para el paso de predicción?Respuestas:
Tengo entendido que no necesariamente se puede decir mucho sobre qué variables son "importantes" o tienen efectos "reales" en función de si sus coeficientes son distintos de cero. Para dar un ejemplo extremo, si tiene dos predictores que son perfectamente colineales, el lazo seleccionará uno de ellos esencialmente al azar para obtener el peso completo y el otro tendrá un peso cero.
Este papel , que incluye a uno de los autores de glmnet, presenta algunos análisis basados en glmnet (ver especialmente: Introducción, Secciones 2.3 y 4.3, y Tablas 4 y 5). Echando un vistazo, parece que no calcularon el valor P directamente del modelo glmnet. Calcularon dos tipos diferentes de valores P utilizando otros métodos, pero no parece que confíen plenamente en ninguno de ellos.
No estoy 100% seguro de lo que estás sugiriendo en términos de métodos de trazado, pero creo que suena razonable.
Espero que ayude.
fuente
Solo quería señalar que hay un trabajo reciente que intenta desarrollar una estadística de prueba específicamente para LASSO, que tiene en cuenta la selección de características que se realiza:
Una prueba de significación para el lazo. Richard Lockhart, Jonathan Taylor, Ryan J. Tibshirani, Robert Tibshirani. http://arxiv.org/abs/1301.7161
Sin embargo, todavía no he visto esto usado en el trabajo aplicado, mientras que ciertamente se usa bootstrapping.
fuente
Con respecto a la inferencia para LASSO o los modelos de red elástica, eche un vistazo a los paquetes CRAN selectivos de Inferencia e hdi , ¡hacen exactamente eso teniendo en cuenta el paso de selección variable!
fuente