¿Por qué la regresión de crestas no puede proporcionar una mejor interpretación que LASSO?

11

Ya tengo una idea sobre los pros y los contras de la regresión de crestas y el LASSO.

Para el LASSO, el término de penalización L1 producirá un vector de coeficiente disperso, que puede verse como un método de selección de características. Sin embargo, existen algunas limitaciones para el LASSO. Si las características tienen una alta correlación, LASSO solo seleccionará una de ellas. Además, para problemas donde > , LASSO seleccionará como máximo parámetros ( y son el número de observaciones y parámetros, respectivamente). Esto hace que el LASSO sea empíricamente un método subóptimo en términos de previsibilidad en comparación con la regresión de cresta.pnnnp

Para la regresión de cresta, ofrece una mejor previsibilidad en general. Sin embargo, su interpretabilidad no es tan agradable como el LASSO.

La explicación anterior a menudo se puede encontrar en los libros de texto en aprendizaje automático / minería de datos. Sin embargo, todavía estoy confundido acerca de dos cosas:

  1. Si normalizamos el rango de características (digamos entre 0 y 1, o con cero media y varianza unitaria), y ejecutamos la regresión de cresta, aún podemos tener una idea de la importancia de la característica clasificando los valores absolutos de los coeficientes (la característica más importante tiene el valor absoluto más alto de coeficientes). Aunque no estamos seleccionando características explícitamente, la interpretabilidad no se pierde con la regresión de crestas. Al mismo tiempo, aún podemos lograr un alto poder de predicción. Entonces, ¿por qué necesitamos el LASSO? ¿Me estoy perdiendo de algo?

  2. ¿Se prefiere LASSO debido a su naturaleza de selección de características? A mi entender, las razones por las que necesitamos la selección de características son la capacidad de generalizar y facilitar el cálculo.

    Para facilitar el cómputo, no queremos incorporar todas las funciones de 1 millón en nuestro modelo si estamos realizando algunas tareas de PNL, por lo que eliminamos algunas características obviamente inútiles primero para reducir el costo computacional. Sin embargo, para LASSO, solo podemos conocer el resultado de la selección de características (el vector disperso) después de alimentar todos los datos en nuestro modelo, por lo que no nos beneficiamos de LASSO en términos de reducir el costo computacional. Solo podemos hacer predicciones un poco más rápido ya que ahora solo alimentamos el subconjunto de características (por ejemplo, 500 de 1 millón) en nuestro modelo para generar resultados pronosticados.

    Si se prefiere el LASSO por su capacidad de generalizar, entonces también podemos lograr el mismo objetivo utilizando la regresión de cresta (o cualquier otro tipo de regularización). ¿Por qué necesitamos LASSO (o redes elásticas) nuevamente? ¿Por qué no podemos limitarnos a la regresión de crestas?

¿Podría alguien arrojar algunas luces sobre esto? ¡Gracias!

Brad Li
fuente
3
Esto hace que el LASSO sea empíricamente un método subóptimo en términos de previsibilidad en comparación con la regresión de cresta. Estoy en desacuerdo. No creo que LASSO sea generalmente peor (o mejor) que la cresta en términos de predicción. Como @jona dice en su respuesta, es posible que enfrente situaciones en las que algunas de las características realmente no pertenecen al modelo, y luego LASSO será más efectivo al eliminarlas. Sin embargo, con la cresta se incluirían todas las características y las irrelevantes contaminarían las predicciones. Es por eso que necesitamos elástica neta - dejar que los datos de decidir la combinación adecuada de y . L1L2
Richard Hardy
3
También me pregunto qué libros de texto dicen cosas como Para la regresión de cresta, ofrece una mejor previsibilidad en general (en contraste con LASSO, entiendo, no en contraste con la regresión sin restricciones). Quizás general no es tan general en su uso. Además, ¿cuánta interpretabilidad se supone que producen los métodos de regularización? (Además, Shmueli "Explicar o predecir " (2010) es una buena pieza, aunque no está directamente relacionada.)
Richard Hardy
1
@ RichardHardy, tienes razón. Ahora leí el libro de texto con más cuidado y descubrí que " ni la regresión por crestas ni el lazo dominarán universalmente al otro " en la página 223, Introducción al aprendizaje estadístico con aplicaciones en R , Gareth James et al.
Brad Li,
@RichardHardy, originalmente encontré argumentos similares para la regularización L1 en las preguntas frecuentes de LIBLINEAR
Brad Li el
¿Las ejecuciones de Ridge y Lasso en un ejemplo real o dos aclararían las diferencias? (Pero no son fáciles de comparar, ¿ajuste de la trama versus dispersión?)
denis

Respuestas:

15
  1. Si solicita 1 millón de funciones reducidas, escaladas, pero distintas de cero, tendrá que tomar algún tipo de decisión: verá los n mejores predictores, pero ¿qué es n ? El LASSO resuelve este problema de una manera objetiva y basada en principios, porque para cada paso en el camino (y, a menudo, se conformaría con un punto mediante, por ejemplo, la validación cruzada), solo hay coeficientes m que no son cero.

  2. Muy a menudo, entrenará modelos en algunos datos y luego los aplicará a algunos datos aún no recopilados. Por ejemplo, podría ajustar su modelo en 50.000.000 correos electrónicos y luego usar ese modelo en cada correo electrónico nuevo. Es cierto que lo encajará en el conjunto completo de funciones para los primeros 50.000.000 de correos, pero por cada correo electrónico siguiente, tratará con un modelo mucho más escaso y más rápido, y mucho más eficiente en memoria. Tampoco necesitará recopilar la información de las características eliminadas, lo que puede ser de gran ayuda si las características son caras de extraer, por ejemplo, mediante genotipado.

Otra perspectiva sobre el problema L1 / L2 expuesta, por ejemplo, por Andrew Gelman es que a menudo tienes alguna intuición de cómo puede ser tu problema. En algunas circunstancias, es posible que la realidad sea realmente escasa. Tal vez haya medido millones de genes, pero es plausible que solo 30,000 de ellos realmente determinen el metabolismo de la dopamina. En tal situación, L1 podría encajar mejor con el problema.
En otros casos, la realidad puede ser densa. Por ejemplo, en psicología, "todo se correlaciona (hasta cierto punto) con todo" (Paul Meehl). Las preferencias por las manzanas frente a las naranjas probablemente se correlacionan con tendencias políticas de alguna manera, e incluso con el coeficiente intelectual. La regularización aún podría tener sentido aquí, pero los verdaderos efectos cero deberían ser raros, por lo que L2 podría ser más apropiado.

jona
fuente
Gracias. Tu explicación es muy clara! Todavía estoy un poco confundido acerca de la capacidad de interpretación de Ridge. ¿Puedo definir la importancia de la característica ordenando las variables en función de sus valores absolutos? Por ejemplo, si obtenemos el siguiente resultado usando la cresta podemos decir en términos de importancia de la característica , dado que ya normalizamos las características dentro del rango . Por lo tanto, todavía podemos lograr la capacidad de interpretación utilizando cresta.
y=2x1+3x2x3
x2>x1>x3[0,1]
Brad Li el
Por supuesto, puede ordenarlos, pero aún tendrá que tomar algún tipo de decisión sobre qué subconjunto de ellos debe mirar.
jona
66
Otra forma de expresar esto sería: la cresta puede ayudar con la selección de características, LASSO hace la selección de características.
jona
1
@Brad, además de la excelente respuesta de jona (+1), tenga en cuenta que juzgar la importancia de la característica por su coeficiente de regresión estandarizado es un enfoque posible, pero no el único; existen diferentes medidas de "importancia de características" y pueden dar fácilmente resultados contradictorios. Vea este hilo para una larga discusión: stats.stackexchange.com/questions/64010 .
ameba dice Reinstate Monica
1

La interpretabilidad disminuye si el objetivo depende de muchas características. Aumenta si podemos reducir la cantidad de funciones y mantener la precisión. La regularización de crestas no tiene la capacidad de reducir la cantidad de características. Pero Lasso tiene la habilidad. Cómo sucede esto se explica visualmente en el siguiente enlace:

Haga clic en el artículo Hacia la ciencia de datos

solucionador149
fuente