Regresión lineal multivariante con lazo en r

Estoy tratando de crear un modelo reducido para predecir muchas variables dependientes (DV) (~ 450) que están altamente correlacionadas.

Mis variables independientes (IV) también son numerosas (~ 2000) y altamente correlacionadas.

Si utilizo el lazo para seleccionar un modelo reducido para cada salida individualmente, no tengo la garantía de obtener el mismo subconjunto de variables independientes a medida que recorro cada variable dependiente.

¿Existe una regresión lineal multivariada que use el lazo en R?

Esto no es un lazo grupal. lazo grupal agrupa el IV. Quiero una regresión lineal multivariada (es decir, el DV es una matriz, no un vector de escalares), que también implementa lazo. (Nota: como señala NRH, esto no es cierto. Lazo grupal es un término general que incluye estrategias que agrupan el IV, pero también incluye estrategias que agrupan otros parámetros como el DV)

Encontré este artículo que se mete en algo llamado Lazo de conjuntos superpuestos dispersos

Aquí hay un código que hace regresión lineal multivariante

> dim(target)
[1] 6060  441
> dim(dictionary)
[1] 6060 2030
> fit = lm(target~dictionary)

Aquí hay un código que enlaza en un solo DV

> fit = glmnet(dictionary, target[,1])

Y esto es lo que me gustaría hacer:

> fit = glmnet(dictionary, target)
Error in weighted.mean.default(y, weights) : 
  'x' and 'w' must have the same length

Seleccionar funciones que se ajusten a TODOS los objetivos a la vez

r lasso multivariate-regression kmace
fuente

No está claro lo que está preguntando, excepto en el último punto. Se llama al paquete glmnety tiene una viñeta completa.

generic_user

¿Qué quieres decir con "cada vez"? ¿Está ejecutando esto en subconjuntos de sus datos? ¿Validación cruzada? Diferentes muestras?

shadowtalker

Por cada vez, quiero decir que actualmente estoy ejecutando glmnet en una sola variable dependiente a la vez, y recorriendo todas ellas

kmace

O, en otras palabras, mi y siempre es un vector, no una matriz

kmace

@ Firebug absolutamente. No sabía que el término era más general. Perdón por eso

kmace

Respuestas:

Para respuestas multivariadas (número de variables dependientes mayores que 1), necesita family = "mgaussian"en la llamada de glmnet.

El paquete lsgl es una alternativa, que proporciona una penalización más flexible.

$k$

\sum_{j = 1}^{p} ‖ β_{j} ‖_{2}

$\sum_{j = 1}^p \| \boldsymbol{\beta}_j \|_2$

β_{j} = (β_{j 1}, \dots, β_{j k})^{T}

$\boldsymbol{\beta}_j = (\beta_{j1}, \ldots, \beta_{jk})^T$

j

$j$ glmnet

El primero [ family = "mgaussian"] permite que se ajuste un modelo gaussiano de respuesta múltiple, utilizando una penalización de "grupo -solado" en los coeficientes para cada variable. Unir las respuestas de esta manera se denomina aprendizaje "multitarea" en algunos dominios.

Esta penalización es un ejemplo de penalización de lazo de grupo, que agrupa parámetros para las diferentes respuestas que están asociadas al mismo predictor. Resulta en la selección de los mismos predictores en todas las respuestas para un valor dado del parámetro de ajuste.

El paquete lsgl implementa penalizaciones de lazo de grupo disperso de la forma donde y son ciertos pesos elegidos para equilibrar las contribuciones de los diferentes términos. El valor predeterminado es y . El parámetro es un parámetro de ajuste. Con (y ) la penalización es equivalente a la penalización utilizada por with . Con (y

α \sum_{j = 1}^{p} \sum_{l = 1}^{k} ξ_{j l} | β_{j l} | + (1 - α) \sum_{j = 1}^{p} γ_{j} ‖ β_{j} ‖_{2}

$\alpha \sum_{j=1}^p \sum_{l = 1}^k \xi_{jl} |\beta_{jl}| + (1-\alpha) \sum_{j = 1}^p \gamma_{j} \| \boldsymbol{\beta}_j \|_2$

ξ_{j l}

$\xi_{jl}$

γ_{j}

$\gamma_{j}$

ξ_{j l} = 1

$\xi_{jl} = 1$

γ_{j} = \sqrt{k}

$\gamma_{j} = \sqrt{k}$

α \in [0, 1]

$\alpha \in [0,1]$

α = 0

$\alpha = 0$

γ_{j} = 1

$\gamma_j = 1$ glmnetfamily = "mgaussian"

α = 1

$\alpha = 1$

ξ_{j l} = 1

$\xi_{jl} = 1$ ) la pena da un lazo ordinario. La implementación de lsgl también permite una agrupación adicional de los predictores.

Una nota sobre el lazo grupal. El término lazo grupal a menudo se asocia con una agrupación de predictores. Sin embargo, desde un punto de vista más general, el lazo grupal es simplemente una agrupación de parámetros en la penalización. La agrupación utilizada por glmnetwith family = "mgaussian"es una agrupación de parámetros a través de las respuestas. El efecto de tal agrupación es acoplar la estimación de los parámetros a través de las respuestas, lo que resulta ser una buena idea, si todas las respuestas pueden predecirse a partir del mismo conjunto de predictores. La idea general de acoplar múltiples problemas de aprendizaje, que se espera que compartan alguna estructura, se conoce como aprendizaje de tareas múltiples .

NRH
fuente