¿Cuándo funcionará la regularización L1 mejor que L2 y viceversa?

30

Nota: Sé que L1 tiene una propiedad de selección de características. Estoy tratando de entender cuál elegir cuando la selección de funciones es completamente irrelevante.

  1. ¿Cómo decidir qué regularización (L1 o L2) usar?
  2. ¿Cuáles son los pros y los contras de cada una de las regularizaciones L1 / L2?
  3. ¿Se recomienda hacer primero la selección de características usando L1 y luego aplicar L2 en estas variables seleccionadas?
GeorgeOfTheRF
fuente
2
Tenga en cuenta que la "selección de características L1" debería llamarse regularización del espacio de características; hay muchas vías mejores métodos para hacer la selección de características entendidas como obtener información de lo que es relevante para el problema modelado.
@mbq: Tengo curiosidad por saber qué "métodos mucho mejores" quiso decir aquí?
ameba dice Reinstate Monica
1
Como los enumerados aquí .

Respuestas:

31

¿Cómo decidir qué regularización (L1 o L2) usar?

¿Cuál es tu objetivo? Ambos pueden mejorar la generalización del modelo penalizando los coeficientes, ya que las características con relación opuesta al resultado pueden "compensarse" entre sí (un gran valor positivo se compensa con un gran valor negativo). Esto puede surgir cuando hay características colineales. Pequeños cambios en los datos pueden dar como resultado estimaciones de parámetros dramáticamente diferentes (estimaciones de alta varianza). La penalización puede restringir ambos coeficientes para que sean más pequeños. (Hastie et al, Elementos de aprendizaje estadístico , segunda edición, p. 63)

¿Cuáles son los pros y los contras de cada una de las regularizaciones L1 / L2?

La regularización de L1 puede abordar el problema de la multicolinealidad limitando la norma del coeficiente y fijando algunos valores de coeficiente a 0. Computacionalmente, la regresión de lazo (regresión con una penalización de L1) es un programa cuadrático que requiere algunas herramientas especiales para resolver. Cuando tiene más características que las observaciones , el lazo mantendrá como máximo coeficientes distintos de ceroNN . Dependiendo del contexto, eso podría no ser lo que quieres.

La regularización L1 a veces se usa como un método de selección de características. Suponga que tiene algún tipo de límite rígido en la cantidad de características que puede usar (porque la recopilación de datos para todas las características es costosa, o tiene restricciones estrictas de ingeniería sobre cuántos valores puede almacenar, etc.). Puede intentar ajustar la penalización L1 para alcanzar el número deseado de características distintas de cero.

La regularización de L2 puede abordar el problema de la multicolinealidad al restringir la norma del coeficiente y mantener todas las variables. Es improbable que un coeficiente sea exactamente 0. Esto no es necesariamente un inconveniente, a menos que un vector de coeficiente disperso sea importante por alguna razón.

En la configuración de regresión, es la solución "clásica" al problema de estimar una regresión con más características que observaciones. La regularización de L2 puede estimar un coeficiente para cada característica incluso si hay más características que observaciones (de hecho, esta fue la motivación original para la "regresión de cresta").

Como alternativa, la red elástica permite la regularización de L1 y L2 como casos especiales. Un caso de uso típico para un científico de datos en la industria es que solo desea elegir el mejor modelo, pero no necesariamente le importa si se penaliza con L1, L2 o ambos. La red elástica es agradable en situaciones como estas.

¿Se recomienda hacer primero la selección de características usando L1 y luego aplicar L2 en estas variables seleccionadas?

No estoy familiarizado con una publicación que proponga una tubería L1-luego-L2, pero esto es probablemente solo ignorancia de mi parte. No parece haber nada malo en ello. Realizaría una revisión de la literatura.

Existen algunos ejemplos de tuberías "en fase" similares. Uno es el "lazo relajado", que aplica la regresión del lazo dos veces , una para seleccionar hacia abajo de un grupo grande a un pequeño grupo de características, y la segunda para estimar los coeficientes para usar en un modelo. Esto utiliza la validación cruzada en cada paso para elegir la magnitud de la penalización. El razonamiento es que en el primer paso, usted valida de forma cruzada y probablemente elegirá una penalización grande para descartar predictores irrelevantes; en el segundo paso, validará de forma cruzada y probablemente elegirá una penalización menor (y, por lo tanto, coeficientes más grandes). Esto se menciona brevemente en Elementos de aprendizaje estadístico con una cita a Nicolai Meinshausen ("Lazo relajado". Estadística computacional y análisis de datos Volumen 52, Número 1, 15 de septiembre de 2007, pp 374-393).

El usuario @amoeba también sugiere una tubería L1-luego-OLS; Esto podría ser bueno porque solo tiene 1 hiperparámetro para la magnitud de la penalización L1, por lo que se requeriría menos violín.

Un problema que puede surgir con cualquier canal de análisis "en fases" que realice algunos pasos y luego otros pasos por separado es que no hay "visibilidad" entre esos diferentes algoritmos, por lo que un proceso hereda cualquier espionaje de datos que sucedió en los pasos anteriores. Este efecto no es despreciable; el modelado mal concebido puede dar como resultado modelos basura.

Una forma de protegerse contra los efectos secundarios de espionaje de datos es validar de forma cruzada todas sus opciones. Sin embargo, el aumento de los costos computacionales puede resultar prohibitivo.

Sycorax dice reinstalar a Mónica
fuente
Lo siento, no seguí la respuesta a mi tercer punto. ¿Puedes explicar?
GeorgeOfTheRF
1
Se trata de dar cuenta adecuadamente del optimismo. Por la misma razón por la que medimos el rendimiento en datos fuera de la muestra, es necesario realizar todos los pasos de filtrado / preprocesamiento de una manera que no permita la fuga de información entre los pasos. Si selecciona funciones en todo su conjunto de datos y luego realiza un análisis, encontrará señal en el ruido.
Sycorax dice Reinstate Monica el
Okay. Entonces, ¿cuál es el enfoque recomendado para la selección de características antes de ejecutar un modelo ML?
GeorgeOfTheRF
3
Mi recomendación es "no lo hagas". Vea aquí un ejemplo de cómo esto puede salir mal: stats.stackexchange.com/questions/164048/… Pero esto es lo suficientemente diferente de su pregunta inicial como para que simplemente haga una nueva pregunta. (Esto es para su ventaja, ya que podrá acumular un representante adicional en la nueva pregunta).
Sycorax dice Reinstate Monica
3
(+1) No he visto L1-seguido-de-L2 discutido en la literatura, pero tiene sentido para mí. Hay L1 seguido de OLS (también conocido como "híbrido LARS-OLS") y L1 seguido de L1 (lazo relajado), por lo que también podría considerarse L1 seguido de L2. Siempre y cuando ambos hiperparámetros tengan validación cruzada, debería ser una estrategia de regularización viable.
ameba dice Reinstate Monica el
19

En términos generales, si desea una predicción óptima, use L2. Si desea parsimonia en algún sacrificio de discriminación predictiva, use L1. Pero tenga en cuenta que la parsimonia puede ser ilusoria, por ejemplo, repetir el proceso de lazo usando el bootstrap a menudo revelará una inestabilidad significativa en la lista de características "seleccionadas", especialmente cuando los predictores están correlacionados entre sí.

Frank Harrell
fuente
"Predicción óptima" - ¿Quiere decir que L2 en general ofrece una mayor precisión en datos no vistos?
GeorgeOfTheRF
3
Sí, especialmente con respecto a la discriminación predictiva.
Frank Harrell
1
+1 a este comentario (y la respuesta). Me he encontrado con este fenómeno de que suele ser mejor en términos de discriminación predictiva (es decir, tareas de clasificación) que y siempre me molesta. Arranco intensamente solo para que mi red elástica proponga una cresta cercana o total solución. :)L 1L2L1
usεr11852 dice Reinstate Monic
2
La discriminación predictiva es un concepto mucho más general que la clasificación. Pero a su punto, generalmente es mejor que porque no gasta ninguna información tratando de ser parsimoneous. Permite sumar muchos pequeños efectos. L 1L2L1
Frank Harrell
Genial, gracias por la aclaración. Tiene sentido. (Sí, tiene razón; asocio la DP con medidas relacionadas con la probabilidad de una clasificación y / o un orden correctos de los sujetos en términos de riesgo, por lo que no tardé en decir "tareas de clasificación"; mal, debería ser más cuidadoso).
usεr11852 dice Reinstate Monic