Teoría detrás de la regresión de mínimos cuadrados parciales

33

¿Alguien puede recomendar una buena exposición de la teoría detrás de la regresión de mínimos cuadrados parciales (disponible en línea) para alguien que entiende SVD y PCA? He visto muchas fuentes en línea y no he encontrado nada que tuviera la combinación correcta de rigor y accesibilidad.

He examinado los Elementos del aprendizaje estadístico , que se sugirió en un comentario sobre una pregunta formulada en Cross Validated , ¿Qué es la regresión de mínimos cuadrados parciales (PLS) y en qué se diferencia de OLS? , pero no creo que esta referencia haga justicia al tema (es demasiado breve para hacerlo y no proporciona mucha teoría sobre el tema). Por lo que he leído, PLS explota las combinaciones lineales de las variables predictoras, que maximizan la covarianza sujeto a las restricciones y z_i ^ Tz_j = 0 si i \ neq j , donde el \ varphi_iy T z iφ i= 1 z T i z j = 0 i j φ izi=XφiyTziφi=1ziTzj=0ijφyose eligen iterativamente, en el orden en que maximizan la covarianza. Pero incluso después de todo lo que he leído, todavía no estoy seguro de si eso es cierto y, de ser así, cómo se ejecuta el método.

clarpaul
fuente

Respuestas:

38

La Sección 3.5.2 en Los elementos del aprendizaje estadístico es útil porque coloca la regresión de PLS en el contexto correcto (de otros métodos de regularización), pero de hecho es muy breve y deja algunas declaraciones importantes como ejercicios. Además, solo considera un caso de una variable dependiente univariada y .

La literatura sobre PLS es vasta, pero puede ser bastante confusa porque hay muchos "sabores" diferentes de PLS: versiones univariadas con un solo DV y (PLS1) y versiones multivariadas con varios DVs Y (PLS2), versiones simétricas tratando X y Y igual y versiones asimétricas ("regresión PLS") tratando X como independiente y Y como variables dependientes, versiones que permiten una solución global a través de SVD y versiones que requieren deflaciones iterativas para producir cada siguiente par de direcciones PLS, etc. etc.

Todo esto se ha desarrollado en el campo de la quimiometría y se mantiene algo desconectado de la literatura estadística o de aprendizaje automático "convencional".

El documento de resumen que encuentro más útil (y que contiene muchas referencias adicionales) es:

Para una discusión más teórica, puedo recomendar más:


Una breve introducción a la regresión de PLS con univariante (también conocido como PLS1, también conocido como SIMPLS)y

El objetivo de la regresión es estimar en un modelo lineal . La solución OLS disfruta de muchas propiedades de optimización pero puede sufrir un sobreajuste. De hecho, OLS busca que produce la mayor correlación posible de con . Si hay muchos predictores, siempre es posible encontrar alguna combinación lineal que tenga una alta correlación con . Esta será una correlación espuria, y tal generalmente apuntará en una dirección que explica muy poca variación eny = X β + ϵ β = ( XX ) - 1 Xy β X β y y β Xβy=Xβ+ϵβ=(XX)-1XyβXβyyβX. Las instrucciones que explican muy poca variación son a menudo direcciones muy "ruidosas". Si es así, a pesar de que en los datos de entrenamiento la solución OLS funciona muy bien, en los datos de prueba funcionará mucho peor.

Para evitar el sobreajuste, uno usa métodos de regularización que esencialmente obligan a a apuntar en direcciones de alta varianza en (esto también se llama "contracción" de ; consulte ¿Por qué funciona la contracción? ). Uno de estos métodos es la regresión de componentes principales (PCR) que simplemente descarta todas las direcciones de baja varianza. Otro (mejor) método es la regresión de crestas que penaliza suavemente las direcciones de baja varianza. Otro método más es PLS1.X ββXβ

PLS1 reemplaza el objetivo de OLS de encontrar que maximiza la correlación con un objetivo alternativo de encontrar con longitud maximizando la covarianza que nuevamente penaliza efectivamente las direcciones de baja varianza.corr ( X β , y ) β β = 1 cov ( X β , y ) corr ( X β , y ) βcorr(Xβ,y)ββ=1

cov(Xβ,y)corr(Xβ,y)var(Xβ),

Encontrar tales (llamémoslo ) produce el primer componente PLS . Se puede buscar además el segundo (y luego tercero, etc.) componente PLS que tiene la mayor covarianza posible con bajo la restricción de no estar correlacionado con todos los componentes anteriores. Esto debe resolverse de forma iterativa, ya que no existe una solución de forma cerrada para todos los componentes (la dirección del primer componente simplemente viene dada porβ 1 z 1 = X β 1 y β 1 Xy β z β i β P L Sββ1z1=Xβ1yβ1Xynormalizado a la longitud de la unidad). Cuando se extrae el número deseado de componentes, la regresión PLS descarta los predictores originales y usa los componentes PLS como nuevos predictores; esto produce una combinación lineal de ellos que se puede combinar con todos para formar la final .βzβyoβPAGSLS

Tenga en cuenta que:

  1. Si se utilizan todos los componentes PLS1, PLS será equivalente a OLS. Entonces, el número de componentes sirve como parámetro de regularización: cuanto menor es el número, más fuerte es la regularización.
  2. Si los predictores no están correlacionados y todos tienen la misma varianza (es decir, se ha blanqueado ), entonces solo hay un componente PLS1 y es equivalente a OLS.XXX
  3. Los vectores de peso y para no serán ortogonales, pero producirán componentes no correlacionados y .βyoβjyojzyo=Xβyozj=Xβj

Dicho todo esto, no conozco ninguna ventaja práctica de la regresión PLS1 sobre la regresión de cresta (aunque esta última tiene muchas ventajas: es continua y no discreta, tiene solución analítica, es mucho más estándar, permite extensiones de núcleo y analíticas fórmulas para errores de validación cruzada de dejar uno fuera, etc., etc.).


Citando de Frank y Friedman:

RR, PCR y PLS se ven en la Sección 3 para operar de manera similar. Su objetivo principal es reducir el vector del coeficiente de la solución lejos de la solución OLS hacia las direcciones en el espacio variable de predicción de una dispersión de muestra más grande. Se observa que PCR y PLS se encogen más lejos de las direcciones de baja propagación que RR, lo que proporciona la contracción óptima (entre estimadores lineales) para una equidirección previa. Por lo tanto, PCR y PLS suponen que la verdad es probable que tenga alineaciones preferenciales particulares con las direcciones de alta dispersión de la distribución de la variable predictiva (muestra). Un resultado algo sorprendente es que PLS (además) coloca una masa de probabilidad incrementada en el vector de coeficiente verdadero alineado con la dirección del componente principal, dondeKK es la cantidad de componentes PLS utilizados, de hecho, expande la solución OLS en esa dirección.

También realizan un extenso estudio de simulación y concluyen (el énfasis es mío):

Para las situaciones cubiertas por este estudio de simulación, se puede concluir que todos los métodos sesgados (RR, PCR, PLS y VSS) proporcionan una mejora sustancial sobre OLS. [...] En todas las situaciones, RR dominó todos los otros métodos estudiados. Los PLS generalmente tuvieron un desempeño casi tan bueno como el RR y generalmente superaron a la PCR, pero no mucho.


Actualización: en los comentarios @cbeleites (que trabaja en quimiometría) sugiere dos posibles ventajas de PLS sobre RR:

  1. Un analista puede tener una idea a priori de cuántos componentes latentes deben estar presentes en los datos; esto permitirá establecer una fuerza de regularización sin hacer una validación cruzada (y puede que no haya suficientes datos para hacer un CV confiable). Tal elección a priori de podría ser más problemática en RR.λ

  2. RR produce una sola combinación lineal como una solución óptima. En contraste, PLS con, por ejemplo, cinco componentes produce cinco combinaciones lineales que luego se combinan para predecir . Es probable que las variables originales que están fuertemente interrelacionadas se combinen en un solo componente PLS (porque combinarlas juntas aumentará el término de varianza explicado). Por lo tanto, podría ser posible interpretar los componentes individuales de PLS como algunos factores latentes reales que impulsan . La afirmación es que es más fácil interpretar etc., en comparación con el conjuntoβRRβyoyyβ1,β2,βPAGSLS. Compare esto con la PCR, donde también se puede ver como una ventaja que los componentes principales individuales se puedan interpretar y asignar algún significado cualitativo.

ameba dice Reinstate Monica
fuente
1
Ese papel parece útil. No creo que aborde cuánto sobreajuste puede ser causado por PLS.
Frank Harrell
3
Así es, @Frank, pero honestamente, en lo que respecta al rendimiento predictivo, no tengo mucho sentido en hacer otra cosa que no sea la regresión de cresta (o tal vez una red elástica si también se desea la escasez). Mi propio interés en PLS está en el aspecto de reducción de dimensionalidad cuando e son multivariados; así que no estoy muy interesado en cómo funciona PLS como técnica de regularización (en comparación con otros métodos de regularización). Cuando tengo un modelo lineal que necesito regularizar, prefiero usar cresta. Me pregunto cuál es tu experiencia aquí. YXY
ameba dice Reinstate Monica
3
Mi experiencia es que la cresta (estimación de máxima probabilidad penalizada cuadrática) ofrece predicciones superiores. Creo que algunos analistas sienten que PLS es una técnica de reducción de dimensionalidad en el sentido de evitar el sobreajuste, pero supongo que ese no es el caso.
Frank Harrell
2
b) si va a realizar, por ejemplo, una interpretación espectroscópica de lo que hace el modelo, me resulta más fácil observar las cargas de PLS qué tipo de sustancias se miden. Puede encontrar una o dos sustancias / clases de sustancias allí, donde los coeficientes que incluyen todas las variables latentes son más difíciles de interpretar porque se combinan las contribuciones espectrales de más sustancias. Esto es más importante porque no se aplican todas las reglas habituales de interpretación espectral: un modelo PLS puede elegir algunas bandas de una sustancia mientras ignora otras. La interpretación de espectros "normales" utiliza mucho de esta banda podría ...
cbeleites apoya a Monica el
2
... provienen de esta o aquella sustancia. Si es esta sustancia, debe haber esta otra banda. Como esta última posibilidad de verificar la sustancia no es posible con las variables / cargas / coeficientes latentes, interpretar cosas que varían juntas y, por lo tanto, terminan en la misma variable latente es mucho más fácil que interpretar los coeficientes que ya resumen todo tipo de "pistas" posibles "que conoce el modelo.
cbeleites apoya a Monica el
4

Sí. El libro de Herman Wold Empirismo teórico: una justificación general para la construcción de modelos científicos es la mejor exposición individual de PLS que conozco, especialmente dado que Wold es un creador del enfoque. Sin mencionar que es simplemente un libro interesante para leer y conocer. Además, basándose en una búsqueda en Amazon, la cantidad de referencias a libros sobre PLS escritos en alemán es sorprendente, pero puede ser que el subtítulo del libro de Wold sea parte de la razón.

Mike Hunter
fuente
1
Este amazon.com/Towards-Unified-Scientific-Models-Methods/dp/… está relacionado pero cubre mucho más que PLS
kjetil b halvorsen
Eso es cierto, pero el enfoque principal del libro es el desarrollo de Wold de la teoría y la aplicación de PLS.
Mike Hunter