Interpretación de los coeficientes de regresión LASSO

12

Actualmente estoy trabajando en la construcción de un modelo predictivo para un resultado binario en un conjunto de datos con ~ 300 variables y 800 observaciones. He leído mucho en este sitio sobre los problemas asociados con la regresión gradual y por qué no usarlo.

He estado leyendo sobre la regresión de LASSO y su capacidad para la selección de características y he tenido éxito en su implementación con el uso del paquete "caret" y "glmnet".

Soy capaz de extraer el coeficiente del modelo con el óptimo lambday alphade "caret"; Sin embargo, no estoy familiarizado con la forma de interpretar los coeficientes.

  • ¿Se interpretan los coeficientes LASSO en el mismo método que la regresión logística?
  • ¿Sería apropiado usar las características seleccionadas de LASSO en la regresión logística?

EDITAR

Interpretación de los coeficientes, como en los coeficientes exponenciados de la regresión LASSO como las probabilidades de log para un cambio de 1 unidad en el coeficiente mientras se mantienen constantes todos los demás coeficientes.

https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-how-do-i-interpret-odds-ratios-in-logistic-regression/

Michael Luu
fuente
¿Puede completar un poco lo que quiere decir con "interpretado de la misma manera que la regresión logística"? Sería muy útil saber exactamente qué interpretaciones le gustaría generalizar.
Matthew Drury
1
@Matthew Drury - Muchas gracias por tomarse el tiempo para ayudarme, ya que mi curso nunca pasó por LASSO. En general, de lo que me enseñaron durante mis cursos de posgrado, los coeficientes exponenciados de una regresión logística producen las probabilidades de registro de un aumento de 1 unidad en el coeficiente mientras se mantienen constantes todos los demás coeficientes.
Michael Luu
1
En "caret" seleccionas α y λ. Donde haceα¿viene de? ¿Es probablemente un hiperparámetro de una red elástica (el peso relativo de LASSO versus la penalización por cresta) (en cuyo caso, en realidad estaría usando una red elástica en lugar de LASSO)?
Richard Hardy
Por lo que puedo decir, la prueba de significancia para los coeficientes no se ha introducido en la mayoría de las implementaciones de LASSO. Entonces, ¿podría una diferencia no ser que, si bien podemos determinar variables estadísticamente significativas en MCO, no podemos hacerlo con LASSO excepto hacer una declaración más débil de que los coeficientes de LASSO de las variables correspondientes seleccionadas son las variables "importantes" a considerar?
Godpeed

Respuestas:

13

¿Se interpretan los coeficientes LASSO en el mismo método que la regresión logística?

Permítanme reformular: ¿se interpretan los coeficientes LASSO de la misma manera que, por ejemplo, los coeficientes de máxima verosimilitud de OLS en una regresión logística?

LASSO (un método de estimación penalizado) tiene como objetivo estimar las mismas cantidades (coeficientes del modelo) que, por ejemplo, la probabilidad máxima de MCO (un método no normalizado). El modelo es el mismo y la interpretación sigue siendo la misma. Los valores numéricos de LASSO normalmente diferirán de los de la probabilidad máxima de OLS : algunos estarán más cerca de cero, otros serán exactamente cero. Si se ha aplicado una cantidad razonable de penalización, las estimaciones de LASSO estarán más cerca de los valores verdaderos que las estimaciones de probabilidad máxima de MCO , lo cual es un resultado deseable.

¿Sería apropiado usar las características seleccionadas de LASSO en la regresión logística?

No hay ningún problema inherente con eso, pero podría usar LASSO no solo para la selección de características sino también para la estimación de coeficientes. Como mencioné anteriormente, las estimaciones de LASSO pueden ser más precisas que, por ejemplo, las estimaciones de probabilidad máxima de MCO .

Richard Hardy
fuente
¡Muchas gracias por esta respuesta! ¡Tiene mucho sentido! Por favor, disculpe mi limitado conocimiento en este asunto. Como mencionó en otro comentario, es posible que esté usando una red elástica en lugar de LASSO a través de caret, ya que elige la lambda y alfa óptimas. ¿Se aplicaría lo mismo con respecto a los coeficientes?
Michael Luu
Sí lo haría. La lógica básica sigue siendo la misma.
Richard Hardy
Escribes "la interpretación sigue siendo la misma". ¿Podrías ayudarme a entender este punto? Me parece que la interpretación de los coeficientes MCO en un entorno de regresión múltiple se basa en gráficos de regresión parcial . Sin embargo, esta propiedad no se cumple para los coeficientes de lazo, lo que me lleva a creer que la interpretación sería diferente.
user795305
1
@Ben, si asumimos un modelo estadístico subyacente, podemos estimar sus parámetros de diferentes maneras, dos populares son OLS y lazo. Los coeficientes estimados apuntan a los mismos objetivos, y ambos tienen algún error de estimación (que, si se ajusta al cuadrado, puede descomponerse en sesgo y varianza), por lo que en este sentido su interpretación es la misma. Ahora, por supuesto, los métodos no son los mismos, por lo que obtienes valores de coeficientes estimados diferentes. Si te interesan los métodos y sus interpretaciones algebraicas y geométricas, entonces estos no son lo mismo. Pero las interpretaciones del tema son las mismas.
Richard Hardy
@ Richard Hardy Ah, está bien, creo que entiendo mejor lo que estás diciendo. Ciertamente es cierto que el lazo puede vencer a OLS en el error de estimación, pero, al final del día, como usted dice, estos son solo estimadores para el mismo objetivo. ¿Se interpretaría algún estimador de la misma manera que se interpreta OLS? Por ejemplo, ¿el estimador (no aleatorio)(1,...,pag)Tser interpretado de esa manera? o el estimador con entradas uniformes iid (0,1)? (etc.) Parece (para mí) que las propiedades del estimador deben usarse directamente en su interpretación, e incluso las interpretaciones de la materia cambiarían.
user795305