Umbral suave vs penalización de lazo

11

Estoy tratando de resumir lo que entendí hasta ahora en el análisis multivariado penalizado con conjuntos de datos de alta dimensión, y todavía me cuesta obtener una definición adecuada de la penalización de umbral suave frente a la penalización Lasso (o ).L1

Más precisamente, utilicé una regresión PLS dispersa para analizar la estructura de datos de 2 bloques que incluye datos genómicos ( polimorfismos de un solo nucleótido , donde consideramos la frecuencia del alelo menor en el rango {0,1,2}, considerado como una variable numérica) y fenotipos continuos (puntajes que cuantifican los rasgos de personalidad o asimetría cerebral, también tratados como variables continuas). La idea era aislar los predictores más influyentes (aquí, las variaciones genéticas en la secuencia de ADN) para explicar las variaciones fenotípicas interindividuales.

Inicialmente utilicé el paquete mixOmics R (anteriormente integrOmics) que presenta regresión PLS penalizada y CCA regularizado . Mirando el código R, encontramos que la "escasez" en los predictores se induce simplemente seleccionando los mejores variables con las más altas cargas (en valor absoluto) en el i ésimo componente, i = 1, \ dots, k (el algoritmo es iterativo y calcula cargas de variables en k componentes, desinflando el bloque de predictores en cada iteración, consulte Sparse PLS: Selección de variables al integrar datos de Omics para obtener una descripción general). Por el contrario, el paquete spls es coautor de S. Keleş (veri i = 1 , ... , k kkii=1,,kkLa regresión parcial de mínimos cuadrados parciales para la reducción simultánea de dimensiones y la selección de variables , para una descripción más formal del enfoque emprendido por estos autores) implementa L1 -penalización para penalización variable.

No es obvio para mí si existe una estricta "biyección", por decirlo así, entre la selección iterativa de características basada en el umbral suave y la regularización L1 . Entonces mi pregunta es: ¿Hay alguna conexión matemática entre los dos?

Referencias

  1. Chun, H. y Kele ̧s, S. (2010), mínimos cuadrados parciales dispersos para la reducción simultánea de dimensiones y la selección de variables . Revista de la Royal Statistical Society: Serie B , 72 , 3–25.
  2. Le Cao, K.-A., Rossouw, D., Robert-Granie, C. y Besse, P. (2008), Un escaso PLS para la selección de variables al integrar datos de Omics . Aplicaciones estadísticas en genética y biología molecular , 7 , artículo 35.
chl
fuente

Respuestas:

2

Lo que diré es válido para la regresión, pero también debería ser cierto para PLS. Por lo tanto, no es una biyección porque, dependiendo de cuánto imponga la restricción en el , tendrá una variedad de 'respuestas', mientras que la segunda solución admite solo respuestas posibles (donde es el número de variables) <-> hay más soluciones en la formulación que en la formulación 'truncamiento'.p p l 1l1ppl1

usuario603
fuente
@kwak Ok, el algoritmo LARS parece en gran medida más sofisticado que el simple umbral de importancia variable, pero el punto es que no veo una relación clara entre el parámetro de penalización y el número de variables que se pide mantener en el modelo; me parece que no necesariamente podemos encontrar un parámetro de penalización que produzca exactamente un número fijo de variables.
chl
@chl:> ¿S-PLS quieres decir? (Escribiste LARS, que es algo diferente de cualquier algoritmo que discutas). De hecho, existe una relación monótona entre el parámetro de penalización y el número de componente, pero no es una relación lineal y esta relación varía caso por caso (depende del conjunto de datos / problema).
user603
@kwak L1-penalización puede lograrse usando LARS, a menos que sea engañoso. Su segundo punto es lo que tengo en mente de hecho; ¿Tienes alguna referencia sobre ese punto?
chl
@chl:> * La penalización L1 se puede lograr usando LARS, a menos que sea engañoso * no lo sabía (y lo dudo). ¿Me puede proporcionar una referencia? Gracias. para su segunda pregunta: mire los "grados de libertad" del lazo Hui Zou, Trevor Hastie y Robert Tibshirani Fuente: Ann. Estadístico. Volumen 35, Número 5 (2007), 2173-2192. (Hay muchas versiones no compiladas).
user603
1
@kwak Consulte la página web de Tibshirani, www-stat.stanford.edu/~tibs/lasso.html y el larspaquete R; otros métodos incluyen el descenso de coordenadas (ver JSS 2010 33 (1), bit.ly/bDNUFo ), y el scikit.learnpaquete Python presenta ambos enfoques, bit.ly/bfhnZz .
chl
6

L 1L1 penalización es parte de un problema de optimización. El umbral suave es parte de un algoritmo. A veces, la penalización conduce a un umbral suave.L1

Para la regresión, penaliza los mínimos cuadrados (Lazo) da como resultado un umbral suave cuando las columnas de la matriz son ortogonales (suponiendo que las filas corresponden a diferentes muestras). Es realmente sencillo derivar cuando se considera el caso especial de la estimación media, donde la matriz consiste en un solo en cada fila y ceros en cualquier otro lugar. X X 1L1XX1

Para la matriz general , calcular la solución Lasso a través del descenso de coordenadas cíclica resulta en un umbral suave esencialmente iterativo. Ver http://projecteuclid.org/euclid.aoas/1196438020 .X

vqv
fuente
(+1) Gracias por esto, especialmente el artículo de Friedman.
chl