Estoy tratando de resumir lo que entendí hasta ahora en el análisis multivariado penalizado con conjuntos de datos de alta dimensión, y todavía me cuesta obtener una definición adecuada de la penalización de umbral suave frente a la penalización Lasso (o ).
Más precisamente, utilicé una regresión PLS dispersa para analizar la estructura de datos de 2 bloques que incluye datos genómicos ( polimorfismos de un solo nucleótido , donde consideramos la frecuencia del alelo menor en el rango {0,1,2}, considerado como una variable numérica) y fenotipos continuos (puntajes que cuantifican los rasgos de personalidad o asimetría cerebral, también tratados como variables continuas). La idea era aislar los predictores más influyentes (aquí, las variaciones genéticas en la secuencia de ADN) para explicar las variaciones fenotípicas interindividuales.
Inicialmente utilicé el paquete mixOmics R (anteriormente integrOmics
) que presenta regresión PLS penalizada y CCA regularizado . Mirando el código R, encontramos que la "escasez" en los predictores se induce simplemente seleccionando los mejores variables con las más altas cargas (en valor absoluto) en el i ésimo componente, i = 1, \ dots, k (el algoritmo es iterativo y calcula cargas de variables en k componentes, desinflando el bloque de predictores en cada iteración, consulte Sparse PLS: Selección de variables al integrar datos de Omics para obtener una descripción general). Por el contrario, el paquete spls es coautor de S. Keleş (veri i = 1 , ... , k kLa regresión parcial de mínimos cuadrados parciales para la reducción simultánea de dimensiones y la selección de variables , para una descripción más formal del enfoque emprendido por estos autores) implementa -penalización para penalización variable.
No es obvio para mí si existe una estricta "biyección", por decirlo así, entre la selección iterativa de características basada en el umbral suave y la regularización . Entonces mi pregunta es: ¿Hay alguna conexión matemática entre los dos?
Referencias
- Chun, H. y Kele ̧s, S. (2010), mínimos cuadrados parciales dispersos para la reducción simultánea de dimensiones y la selección de variables . Revista de la Royal Statistical Society: Serie B , 72 , 3–25.
- Le Cao, K.-A., Rossouw, D., Robert-Granie, C. y Besse, P. (2008), Un escaso PLS para la selección de variables al integrar datos de Omics . Aplicaciones estadísticas en genética y biología molecular , 7 , artículo 35.
lars
paquete R; otros métodos incluyen el descenso de coordenadas (ver JSS 2010 33 (1), bit.ly/bDNUFo ), y elscikit.learn
paquete Python presenta ambos enfoques, bit.ly/bfhnZz .L 1L1 penalización es parte de un problema de optimización. El umbral suave es parte de un algoritmo. A veces, la penalización conduce a un umbral suave.L1
Para la regresión, penaliza los mínimos cuadrados (Lazo) da como resultado un umbral suave cuando las columnas de la matriz son ortogonales (suponiendo que las filas corresponden a diferentes muestras). Es realmente sencillo derivar cuando se considera el caso especial de la estimación media, donde la matriz consiste en un solo en cada fila y ceros en cualquier otro lugar. X X 1L1 X X 1
Para la matriz general , calcular la solución Lasso a través del descenso de coordenadas cíclica resulta en un umbral suave esencialmente iterativo. Ver http://projecteuclid.org/euclid.aoas/1196438020 .X
fuente