¿Qué es el "parcial" en los métodos de mínimos cuadrados parciales?

Me gustaría responder a esta pregunta, basada en gran medida en la perspectiva histórica , que es bastante interesante. Herman Wold, quien inventó el enfoque de mínimos cuadrados parciales (PLS) , no ha comenzado a usar el término PLS (o incluso mencionar el término parcial ) de inmediato. Durante el período inicial (1966-1969), se refirió a este enfoque como NILAS : abreviatura del término y título de su documento inicial sobre este tema Estimación no lineal por procedimientos de mínimos cuadrados iterativos , publicado en 1966.

Como podemos ver, los procedimientos que luego se llamarán parciales, se han denominado iterativos , centrándose en la naturaleza iterativa del procedimiento de estimación de pesos y variables latentes (LV). El término "mínimos cuadrados" proviene del uso de la regresión de mínimos cuadrados ordinarios (MCO) para estimar otros parámetros desconocidos de un modelo (Wold, 1980). Parece que el término "parcial" tiene sus raíces en los procedimientos NILES, que implementaron "la idea de dividir los parámetros de un modelo en subconjuntos para que puedan estimarse en partes" (Sánchez, 2013, p. 216; énfasis mío) .

El primer uso del término PLS se produjo en los procedimientos de estimación en papel de mínimos cuadrados parciales iterativos no lineales (NIPALS) , cuya publicación marca el próximo período de la historia de PLS: el período de modelado NIPALS . Las décadas de 1970 y 1980 se convierten en el período de modelado suave , cuando, influenciado por el enfoque LISREL de Karl Joreskog a SEM, Wold transforma el enfoque NIPALS en modelado suave, que esencialmente ha formado el núcleo del enfoque moderno de PLS (el término PLS se convirtió en la corriente principal a fines de la década de 1970 ) La década de 1990, el siguiente período en la historia de PLS, que Sánchez (2013) llama período de "brecha", está marcado en gran medida por la disminución de su uso. Afortunadamente, a partir de la década de 2000 ( período de consolidación), PLS disfrutó de su regreso como un enfoque muy popular para el análisis SEM, especialmente en ciencias sociales.

ACTUALIZACIÓN (en respuesta al comentario de ameba):

Quizás, la redacción de Sánchez no es ideal en la frase que he citado. Creo que "estimado en partes" se aplica a bloques de variables latentes . Wold (1980) describe el concepto en detalle.
Tienes razón en que NIPALS se desarrolló originalmente para PCA. La confusión surge del hecho de que existen enfoques PLS lineales y PLS no lineales. Creo que Rosipal (2011) explica muy bien las diferencias (al menos, esta es la mejor explicación que he visto hasta ahora).

ACTUALIZACIÓN 2 (aclaración adicional):

En respuesta a las preocupaciones, expresadas en la respuesta de ameba, me gustaría aclarar algunas cosas. Me parece que necesitamos distinguir el uso de la palabra "parcial" entre NIPALS y PLS. Eso crea dos preguntas separadas sobre 1) el significado de "parcial" en NIPALS y 2) el significado de "parcial" en PLS (esa es la pregunta original de Phil2014). Si bien no estoy seguro acerca de lo primero, puedo ofrecer más aclaraciones sobre lo último.

Según Wold, Sjöström y Eriksson (2001),

El "parcial" en PLS indica que se trata de una regresión parcial, ya que ...

En otras palabras, "parcial" proviene del hecho de que la descomposición de datos por el algoritmo NIPALS para PLS puede no incluir todos los componentes , por lo tanto, "parcial". Sospecho que la misma razón se aplica a NIPALS en general, si es posible usar el algoritmo en datos "parciales". Eso explicaría "P" en NIPALS.

En cuanto al uso de la palabra "lineal" en NIPALS definición (no hay que confundir con PLS no lineales , lo que representa variante no lineal del enfoque PLS!), Creo que se refiere no al propio algoritmo , sino a modelos no lineales , que se puede analizados, utilizando NIPALS basados en regresión lineal.

ACTUALIZACIÓN 3 (explicación de Herman Wold):

Si bien el artículo de Herman Wold de 1969 parece ser el primero sobre NIPALS, he logrado encontrar otro de los primeros sobre este tema. Ese es un artículo de Wold (1974), donde el "padre" de PLS presenta su justificación para usar la palabra "parcial" en la definición de NIPALS (p. 71):

3.1.4. Estimación de NIPALS: OLS iterativo. Si una o más variables del modelo están latentes, las relaciones de predicción involucran no solo parámetros desconocidos, sino también variables desconocidas, con el resultado de que el problema de estimación se vuelve no lineal. Como se indica en 3.1 (iii), NIPALS resuelve este problema mediante un procedimiento iterativo, digamos con los pasos s = 1, 2, ... Cada paso s involucra un número finito de regresiones OLS, una para cada relación predictiva del modelo. Cada una de estas regresiones proporciona estimaciones proxy para un subconjunto de parámetros desconocidos y variables latentes (de ahí el nombre de mínimos cuadrados parciales ), y estas estimaciones proxy se utilizan en el siguiente paso del procedimiento para calcular nuevas estimaciones proxy.

Referencias

Rosipal, R. (2011). Mínimos cuadrados no lineales: una visión general En Lodhi H. y Yamanishi Y. (Eds.), Quimioinformática y perspectivas avanzadas de aprendizaje automático: métodos computacionales complejos y técnicas de colaboración , págs. 169-189. ACCM, IGI Global. Recuperado de http://aiolos.um.savba.sk/~roman/Papers/npls_book11.pdf

Sánchez, G. (2013). Modelado de ruta PLS con R. Berkeley, CA: Ediciones Trowchez. Recuperado de http://gastonsanchez.com/PLS_Path_Modeling_with_R.pdf

Wold, H. (1974). Flujos causales con variables latentes: Particiones de las formas a la luz del modelado NIPALS. European Economic Review, 5 , 67-86. North Holland Publishing.

Wold, H. (1980). Construcción y evaluación de modelos cuando el conocimiento teórico es escaso: teoría y aplicaciones de mínimos cuadrados parciales. En J. Kmenta y JB Ramsey (Eds.), Evaluación de modelos econométricos , pp. 47-74. Nueva York: Academic Press. Recuperado de http://www.nber.org/chapters/c11693

Wold, S., Sjöström, M. y Eriksson, L. (2001). Regresión PLS: una herramienta básica de quimiometría. Quimometría y sistemas inteligentes de laboratorio, 58 , 109-130. doi: 10.1016 / S0169-7439 (01) 00155-1 Recuperado de http://www.libpls.net/publication/PLS_basic_2001.pdf

Aleksandr Blekh
fuente

@amoeba: Creo que este documento explica PLS en contraste con otros enfoques de una manera más técnica, que ha discutido recientemente. Sin embargo, tenga en cuenta que la explicación anterior se centra en la regresión de PLS, mientras que las PLS incluyen múltiples clases de análisis del sistema (consulte la diapositiva 10 en la siguiente presentación). Las notas técnicas en las diapositivas 25-29 también son útiles en mi humilde opinión. La presentación: plsmodeling.com/pls/pls-introduction .

Aleksandr Blekh

@ Aleksandr Blekh: Estas son muy buenas referencias.

Alph

¡Guau, la gente da nombres a los períodos de la historia de PLS! Impresionante.

ameba dice Reinstate Monica

En serio, sin embargo, busqué en el libro de Sánchez, pero aún no entiendo qué tiene que ver NIPALS con "la idea de dividir los parámetros de un modelo en subconjuntos para que puedan estimarse en partes" . NIPALS se sugirió originalmente como un método para calcular componentes principales, ¿verdad? Es bastante simple. No veo ninguna "división" de los parámetros en "subconjuntos" allí, así que no tengo idea de qué está hablando Sánchez aquí. Por cierto, tampoco entiendo "no lineal" en NIPALS. ¡Ciertamente PCA es una técnica lineal!

ameba dice Reinstate Monica

@amoeba: Consulte mi actualización en respuesta a su comentario. Espero eso ayude.

Aleksandr Blekh

$X$ $Y$ Los elementos del aprendizaje estadístico , Sección 3.5.2, o, por ejemplo, Rosipal y Krämer, 2005, Resumen y avances recientes en mínimos cuadrados parciales .

Sin embargo, históricamente, como @Aleksandr explica muy bien (+1), Wold introdujo PLS y usó su algoritmo NIPALS para implementarlo; NIPALS significa "mínimos cuadrados parciales iterados no lineales", por lo que obviamente P en PLS acaba de llegar desde NIPALS.

$\newcommand{\X}{\mathbf X}\X$ $\newcommand{\v}{\mathbf v}\v$ $\newcommand{\p}{\mathbf p}\p$ $\v$ $\p$

$\v = \X^\top \p (\p^\top \p)^{-1}$
$\|\v\|$ $1$
$\p = \X \v (\v^\top \v)^{-1}$

$\v$ $\p$ $\X$ parte de los parámetros a la vez! Por lo tanto, "parcial".

(Sin embargo, todavía no entiendo por qué lo llamó "no lineal").

Este término es notablemente engañoso, porque si esto es "parcial", entonces todo algoritmo de maximización de expectativas también es "parcial" (de hecho, NIPALS puede verse como una forma primitiva de EM, ver Roweis 1998 ). Creo que PLS es un buen candidato para el concurso El término más engañoso en el aprendizaje automático. Por desgracia, es poco probable que cambie, a pesar de los esfuerzos de Wold Jr. (ver el comentario de @ Momo arriba).

ameba dice Reinstate Monica
fuente

Puede interesarle la ACTUALIZACIÓN 2 de mi respuesta con más aclaraciones.

Aleksandr Blekh

Gracias por mantener esta discusión (para evitar malentendidos, ¡debo decir que no intenté criticarte de ninguna manera!). Ahora, a tu Actualización2. ¿Por qué cree que deberíamos distinguir el significado de "parcial" en PLS y NIPALS? Esto suena extraño; PLS surgió del trabajo en NIPALS y esto sugiere que su nombre es simplemente un "niPaLS" abreviado. Esto parece ser confirmado por Wold et al. Documento de 2001 que encontró: "Esto incluía una forma simple pero eficiente de estimar los parámetros en estos modelos llamados NIPALS. [...] Esto condujo, a su vez, al acrónimo PLS para estos modelos" .

ameba dice Reinstate Monica

v

$\mathbf v$

p

$\mathbf p$

X

$\mathbf X$

¡Excelente! Creo que la pregunta finalmente ha sido respondida satisfactoriamente. Y finalmente he votado tu respuesta, +1 :-) Edité mi respuesta para incorporar esa nueva comprensión. Con respecto a su respuesta: cuando explicó la palabra "parcial" en la Actualización 1 y la Actualización 2, ¿realmente quiso decir lo mismo que acordamos ahora? Para mí, parece que su respuesta actualmente contiene varias interpretaciones diferentes ...

ameba dice Reinstate Monica

¡No lo sé! Quizás es correcto. ¿Puede explicar qué "modelos no lineales" se pueden analizar con NIPALS y cómo? Por otro lado, es probablemente un tema completamente diferente. Supongo que el punto es que Wold desarrolló NIPALS para no computar PCA por sí mismo, pero tenía algunas aplicaciones particulares en mente, donde tuvo que lidiar con problemas no lineales y linealizarlos de alguna manera, reduciéndolos a PCA. Hoy en día, las personas presentan NIPALS como un algoritmo simple para calcular los vectores singulares principales, ¡pero quizás Wold de 1969 no estaría de acuerdo con esta opinión en absoluto!

ameba dice Reinstate Monica

¿Qué es el "parcial" en los métodos de mínimos cuadrados parciales?

Respuestas: