Regresión en configuración

15

Estoy tratando de ver si elegir la regresión de cresta , LASSO , la regresión de componentes principales (PCR) o los mínimos cuadrados parciales (PLS) en una situación en la que hay un gran número de variables / características ( ) y un menor número de muestras ( ), y mi objetivo es la predicción.pn<p

Este es mi entendimiento:

  1. La regresión de cresta reduce los coeficientes de regresión, pero usa todos los coeficientes sin convertirlos en.0

  2. LASSO también reduce los coeficientes, pero también los pone a, lo que significa que también puede hacer una selección de variables.0

  3. La regresión del componente principal trunca los componentes de modo que vuelve menor que ; descartará los componentes .pnpn

  4. El mínimo cuadrado parcial también construye un conjunto de combinaciones lineales de las entradas para la regresión, pero a diferencia de la PCR, utiliza (además de ) para la reducción de la dimensionalidad. La principal diferencia práctica entre la regresión de PCR y PLS es que la PCR a menudo necesita más componentes que PLS para lograr el mismo error de predicción ( ver aquí ).XyX

Considere los siguientes datos ficticios (los datos reales con los que estoy tratando de trabajar son similares):

#random population of 200 subjects with 1000 variables 

M <- matrix(rep(0,200*100),200,1000)
for (i in 1:200) {
set.seed(i)
  M[i,] <- ifelse(runif(1000)<0.5,-1,1)
}
rownames(M) <- 1:200

#random yvars 
set.seed(1234)
u <- rnorm(1000)
g <- as.vector(crossprod(t(M),u))
h2 <- 0.5 
set.seed(234)
y <- g + rnorm(200,mean=0,sd=sqrt((1-h2)/h2*var(g)))

myd <- data.frame(y=y, M)

Implementación de cuatro métodos:

 require(glmnet)

 # LASSO 
 fit1=glmnet(M,y, family="gaussian", alpha=1)

 # Ridge   
 fit1=glmnet(M,y, family="gaussian", alpha=0)

 # PLS
 require(pls)
 fit3 <- plsr(y ~ ., ncomp = 198, data = myd, validation = "LOO")
 # taking 198 components and using leave-one-out cross validation 
 summary(fit3)
 plot(RMSEP(fit3), legendpos = "topright")

 # PCR 
 fit4 <- pcr(y ~ ., ncomp = 198, data = myd, validation = "LOO")

La mejor descripción de los datos es:

  1. , la mayoría de las veces p > 10 n ;p>np>10n

  2. Las variables ( e Y ) se correlacionan entre sí con diferentes grados.XY

Mi pregunta es qué estrategia puede ser mejor para esta situación. ¿Por qué?

Ram Sharma
fuente
66
No tengo una respuesta de antemano, pero el capítulo 18 de Elementos de aprendizaje estadístico está dedicado a este tema y cubre, creo, todas las técnicas que mencionas.
shadowtalker
@ssdecontrol Gracias por el libro que publicaste. Muy útil
Christina

Respuestas:

30

Creo que no hay una respuesta única a su pregunta: depende de muchas situaciones, datos y de lo que está tratando de hacer. Algunas de las modificaciones pueden o deben modificarse para lograr el objetivo. Sin embargo, la siguiente discusión general puede ayudar.

Antes de pasar a los métodos más avanzados, analicemos primero el modelo básico: regresión de mínimos cuadrados (LS) . Hay dos razones por las cuales una estimación de mínimos cuadrados de los parámetros en el modelo completo no es satisfactoria:

  1. Calidad de predicción: las estimaciones de mínimos cuadrados a menudo tienen un sesgo pequeño pero una varianza alta. La calidad de la predicción a veces se puede mejorar reduciendo los coeficientes de regresión o estableciendo algunos coeficientes iguales a cero. De esta manera, el sesgo aumenta, pero la varianza de la predicción se reduce significativamente, lo que conduce a una predicción mejorada en general. Este intercambio entre sesgo y varianza se puede ver fácilmente descomponiendo el error cuadrático medio (MSE). Un MSE más pequeño conduce a una mejor predicción de nuevos valores.

  2. Interpretabilidad : si hay muchas variables predictoras disponibles, tiene sentido identificar las que tienen la mayor influencia y establecer las que no son relevantes para la predicción. Por lo tanto, eliminamos variables que solo explicarán algunos detalles, pero mantenemos aquellas que permiten la explicación principal de la variable de respuesta.

kk{0,1,...,p}304040variables de entrada una búsqueda a través de todos los subconjuntos posibles se vuelve inviable. Por lo tanto, la es muy alta.n>pp

βzk,k=1,2,...,qxj que luego se utilizan como entradas en la regresión.

Los métodos difieren en cómo se construyen las combinaciones lineales. La regresión de componentes principales (PCR) busca transformaciones de los datos originales en un nuevo conjunto de variables no correlacionadas llamadas componentes principales .

yXyXβγγqpXyy .

λ0λ , mayor es la cantidad de contracción. Los coeficientes se reducen hacia cero (y entre sí).

ββ

Xpq

YiLa diferencia entre L1 y L2 es que L2 es la suma del cuadrado de los pesos, mientras que L1 es solo la suma de los pesos. La norma L1 tiende a producir coeficientes dispersos y tiene una función incorporada de selección . La norma L1 no tiene una solución analítica, pero la norma L2 sí. Esto permite que las soluciones de la norma L2 se calculen computacionalmente de manera eficiente. La norma L2 tiene soluciones únicas, mientras que la norma L1 no.

s0s deben elegirse de forma adaptativa para minimizar una estimación del error de predicción esperado.

pN

El análisis de componentes principales es un método efectivo para encontrar combinaciones lineales de características que exhiben una gran variación en un conjunto de datos. Pero lo que buscamos aquí son combinaciones lineales con alta varianza y correlación significativa con el resultado. Por lo tanto, queremos alentar el análisis de componentes principales para encontrar combinaciones lineales de características que tengan una alta correlación con el resultado: componentes principales supervisados (consulte la página 678, Algoritmo 18.1, en el libro Elementos del aprendizaje estadístico ).

Los mínimos cuadrados parciales reducen el peso de las características ruidosas, pero no las descarta; Como resultado, una gran cantidad de características ruidosas pueden contaminar las predicciones. Los PLS Thresholded pueden verse como una versión ruidosa de componentes principales supervisados ​​y, por lo tanto, es posible que no esperemos que funcione tan bien en la práctica. Los componentes principales supervisados pueden producir errores de prueba más bajos que el Umbral PLS . Sin embargo, no siempre produce un modelo disperso que involucra solo un pequeño número de características.

p

rdorlearn
fuente
1
Bias2+Variance
2
¿Qué quiere decir cuando dice que "la norma L2 tiene soluciones únicas mientras que la norma L1 no"? El objetivo del lazo es convexo ...
Andrew M