Teoría detrás de la regresión de mínimos cuadrados parciales

La Sección 3.5.2 en Los elementos del aprendizaje estadístico es útil porque coloca la regresión de PLS en el contexto correcto (de otros métodos de regularización), pero de hecho es muy breve y deja algunas declaraciones importantes como ejercicios. Además, solo considera un caso de una variable dependiente univariada $\mathbf y$ .

La literatura sobre PLS es vasta, pero puede ser bastante confusa porque hay muchos "sabores" diferentes de PLS: versiones univariadas con un solo DV $\mathbf y$ (PLS1) y versiones multivariadas con varios DVs $\mathbf Y$ (PLS2), versiones simétricas tratando $\mathbf X$ y $\mathbf Y$ igual y versiones asimétricas ("regresión PLS") tratando $\mathbf X$ como independiente y $\mathbf Y$ como variables dependientes, versiones que permiten una solución global a través de SVD y versiones que requieren deflaciones iterativas para producir cada siguiente par de direcciones PLS, etc. etc.

Todo esto se ha desarrollado en el campo de la quimiometría y se mantiene algo desconectado de la literatura estadística o de aprendizaje automático "convencional".

El documento de resumen que encuentro más útil (y que contiene muchas referencias adicionales) es:

Rosipal y Krämer, 2006, Resumen y avances recientes en mínimos cuadrados parciales

Para una discusión más teórica, puedo recomendar más:

Frank y Friedman, 1993, Una vista estadística de algunas herramientas de regresión quimométrica

Una breve introducción a la regresión de PLS con univariante (también conocido como PLS1, también conocido como SIMPLS) $y$

El objetivo de la regresión es estimar en un modelo lineal . La solución OLS disfruta de muchas propiedades de optimización pero puede sufrir un sobreajuste. De hecho, OLS busca que produce la mayor correlación posible de con . Si hay muchos predictores, siempre es posible encontrar alguna combinación lineal que tenga una alta correlación con . Esta será una correlación espuria, y tal generalmente apuntará en una dirección que explica muy poca variación en $\beta$ $y=X\beta + \epsilon$ $\beta=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf y$ $\beta$ $\mathbf X \beta$ $\mathbf y$ $\mathbf y$ $\beta$ $\mathbf X$ . Las instrucciones que explican muy poca variación son a menudo direcciones muy "ruidosas". Si es así, a pesar de que en los datos de entrenamiento la solución OLS funciona muy bien, en los datos de prueba funcionará mucho peor.

Para evitar el sobreajuste, uno usa métodos de regularización que esencialmente obligan a a apuntar en direcciones de alta varianza en (esto también se llama "contracción" de ; consulte ¿Por qué funciona la contracción? ). Uno de estos métodos es la regresión de componentes principales (PCR) que simplemente descarta todas las direcciones de baja varianza. Otro (mejor) método es la regresión de crestas que penaliza suavemente las direcciones de baja varianza. Otro método más es PLS1. $\beta$ $\mathbf X$ $\beta$

PLS1 reemplaza el objetivo de OLS de encontrar que maximiza la correlación con un objetivo alternativo de encontrar con longitud maximizando la covarianza que nuevamente penaliza efectivamente las direcciones de baja varianza. $\beta$ $\operatorname{corr}(\mathbf X \beta, \mathbf y)$ $\beta$ $\|\beta\|=1$

cov (X β, y) \sim corr (X β, y) \cdot \sqrt{var (X β)},

$\operatorname{cov}(\mathbf X \beta, \mathbf y)\sim\operatorname{corr}(\mathbf X \beta, \mathbf y)\cdot\sqrt{\operatorname{var}(\mathbf X \beta)},$

Encontrar tales (llamémoslo ) produce el primer componente PLS . Se puede buscar además el segundo (y luego tercero, etc.) componente PLS que tiene la mayor covarianza posible con bajo la restricción de no estar correlacionado con todos los componentes anteriores. Esto debe resolverse de forma iterativa, ya que no existe una solución de forma cerrada para todos los componentes (la dirección del primer componente simplemente viene dada por $\beta$ $\beta_1$ $\mathbf z_1 = \mathbf X \beta_1$ $\mathbf y$ $\beta_1$ $\mathbf X^\top \mathbf y$ normalizado a la longitud de la unidad). Cuando se extrae el número deseado de componentes, la regresión PLS descarta los predictores originales y usa los componentes PLS como nuevos predictores; esto produce una combinación lineal de ellos que se puede combinar con todos para formar la final . $\beta_z$ $\beta_i$ $\beta_\mathrm{PLS}$

Tenga en cuenta que:

Si se utilizan todos los componentes PLS1, PLS será equivalente a OLS. Entonces, el número de componentes sirve como parámetro de regularización: cuanto menor es el número, más fuerte es la regularización.
Si los predictores no están correlacionados y todos tienen la misma varianza (es decir, se ha blanqueado ), entonces solo hay un componente PLS1 y es equivalente a OLS. $\mathbf X$ $\mathbf X$
Los vectores de peso y para no serán ortogonales, pero producirán componentes no correlacionados y . $\beta_i$ $\beta_j$ $i\ne j$ $\mathbf z_i=\mathbf X \beta_i$ $\mathbf z_j=\mathbf X \beta_j$

Dicho todo esto, no conozco ninguna ventaja práctica de la regresión PLS1 sobre la regresión de cresta (aunque esta última tiene muchas ventajas: es continua y no discreta, tiene solución analítica, es mucho más estándar, permite extensiones de núcleo y analíticas fórmulas para errores de validación cruzada de dejar uno fuera, etc., etc.).

Citando de Frank y Friedman:

RR, PCR y PLS se ven en la Sección 3 para operar de manera similar. Su objetivo principal es reducir el vector del coeficiente de la solución lejos de la solución OLS hacia las direcciones en el espacio variable de predicción de una dispersión de muestra más grande. Se observa que PCR y PLS se encogen más lejos de las direcciones de baja propagación que RR, lo que proporciona la contracción óptima (entre estimadores lineales) para una equidirección previa. Por lo tanto, PCR y PLS suponen que la verdad es probable que tenga alineaciones preferenciales particulares con las direcciones de alta dispersión de la distribución de la variable predictiva (muestra). Un resultado algo sorprendente es que PLS (además) coloca una masa de probabilidad incrementada en el vector de coeficiente verdadero alineado con la dirección del componente principal, donde $K$ $K$ es la cantidad de componentes PLS utilizados, de hecho, expande la solución OLS en esa dirección.

También realizan un extenso estudio de simulación y concluyen (el énfasis es mío):

Para las situaciones cubiertas por este estudio de simulación, se puede concluir que todos los métodos sesgados (RR, PCR, PLS y VSS) proporcionan una mejora sustancial sobre OLS. [...] En todas las situaciones, RR dominó todos los otros métodos estudiados. Los PLS generalmente tuvieron un desempeño casi tan bueno como el RR y generalmente superaron a la PCR, pero no mucho.

Actualización: en los comentarios @cbeleites (que trabaja en quimiometría) sugiere dos posibles ventajas de PLS sobre RR:

Un analista puede tener una idea a priori de cuántos componentes latentes deben estar presentes en los datos; esto permitirá establecer una fuerza de regularización sin hacer una validación cruzada (y puede que no haya suficientes datos para hacer un CV confiable). Tal elección a priori de podría ser más problemática en RR. $\lambda$
RR produce una sola combinación lineal como una solución óptima. En contraste, PLS con, por ejemplo, cinco componentes produce cinco combinaciones lineales que luego se combinan para predecir . Es probable que las variables originales que están fuertemente interrelacionadas se combinen en un solo componente PLS (porque combinarlas juntas aumentará el término de varianza explicado). Por lo tanto, podría ser posible interpretar los componentes individuales de PLS como algunos factores latentes reales que impulsan . La afirmación es que es más fácil interpretar etc., en comparación con el conjunto $\beta_\mathrm{RR}$ $\beta_i$ $y$ $y$ $\beta_1, \beta_2,$ $\beta_\mathrm{PLS}$ . Compare esto con la PCR, donde también se puede ver como una ventaja que los componentes principales individuales se puedan interpretar y asignar algún significado cualitativo.

ameba dice Reinstate Monica
fuente

Ese papel parece útil. No creo que aborde cuánto sobreajuste puede ser causado por PLS.

Frank Harrell

Así es, @Frank, pero honestamente, en lo que respecta al rendimiento predictivo, no tengo mucho sentido en hacer otra cosa que no sea la regresión de cresta (o tal vez una red elástica si también se desea la escasez). Mi propio interés en PLS está en el aspecto de reducción de dimensionalidad cuando e son multivariados; así que no estoy muy interesado en cómo funciona PLS como técnica de regularización (en comparación con otros métodos de regularización). Cuando tengo un modelo lineal que necesito regularizar, prefiero usar cresta. Me pregunto cuál es tu experiencia aquí.

X

$X$

Y

$Y$

ameba dice Reinstate Monica

Mi experiencia es que la cresta (estimación de máxima probabilidad penalizada cuadrática) ofrece predicciones superiores. Creo que algunos analistas sienten que PLS es una técnica de reducción de dimensionalidad en el sentido de evitar el sobreajuste, pero supongo que ese no es el caso.

Frank Harrell

b) si va a realizar, por ejemplo, una interpretación espectroscópica de lo que hace el modelo, me resulta más fácil observar las cargas de PLS qué tipo de sustancias se miden. Puede encontrar una o dos sustancias / clases de sustancias allí, donde los coeficientes que incluyen todas las variables latentes son más difíciles de interpretar porque se combinan las contribuciones espectrales de más sustancias. Esto es más importante porque no se aplican todas las reglas habituales de interpretación espectral: un modelo PLS puede elegir algunas bandas de una sustancia mientras ignora otras. La interpretación de espectros "normales" utiliza mucho de esta banda podría ...

cbeleites apoya a Monica el

... provienen de esta o aquella sustancia. Si es esta sustancia, debe haber esta otra banda. Como esta última posibilidad de verificar la sustancia no es posible con las variables / cargas / coeficientes latentes, interpretar cosas que varían juntas y, por lo tanto, terminan en la misma variable latente es mucho más fácil que interpretar los coeficientes que ya resumen todo tipo de "pistas" posibles "que conoce el modelo.

cbeleites apoya a Monica el

Teoría detrás de la regresión de mínimos cuadrados parciales

Respuestas:

Una breve introducción a la regresión de PLS con univariante (también conocido como PLS1, también conocido como SIMPLS)yyy

Una breve introducción a la regresión de PLS con univariante (también conocido como PLS1, también conocido como SIMPLS) $y$