Supuestos del modelo de regresión de mínimos cuadrados parciales (PLS)

13

Estoy tratando de encontrar información sobre los supuestos de la regresión PLS ( simple ). Estoy especialmente interesado en una comparación de los supuestos de PLS con respecto a los de la regresión de OLS. y

He leído / hojeado una gran cantidad de literatura sobre el tema de PLS; documentos de Wold (Svante y Herman), Abdi y muchos otros, pero no han encontrado una fuente satisfactoria.

Wold y col. (2001) Regresión PLS: una herramienta básica de quimiometría menciona supuestos de PLS, pero solo menciona que

  1. Las X no necesitan ser independientes,
  2. el sistema es una función de algunas variables latentes subyacentes,
  3. el sistema debe exhibir homogeneidad durante todo el proceso analítico, y
  4. El error de medición en es aceptable. X

No se mencionan los requisitos de los datos observados o los residuos del modelo. ¿Alguien sabe de una fuente que aborde algo de esto? Teniendo en cuenta que las matemáticas subyacentes son análogas a PCA (con el objetivo de maximizar la covarianza entre y X ), ¿es una suposición la normalidad multivariada de ( y , X ) ? ¿Los residuos del modelo necesitan exhibir homogeneidad de varianza?yX(y,X)

También creo que leí en alguna parte que las observaciones no necesitan ser independientes; ¿Qué significa esto en términos de estudios de medidas repetidas?

Patricio
fuente
El enlace a Wold. et al es incorrecto. ¿Es este el que debería ser? libpls.net/publication/PLS_basic_2001.pdf
emudrak
Un cliente hizo un comentario del revisor a un artículo que decía algo en la línea "muestra que verificó el supuesto de linealidad". ¿Cómo harías esto?
emudrak

Respuestas:

5

yX

En términos más generales, los "supuestos" son algo que solo un resultado teórico (teorema) puede tener.

yX . Entonces, cuando pregunta cuáles son los supuestos de la regresión de PLS, ¿cuáles son las afirmaciones de optimización en las que piensa? De hecho, no tengo conocimiento de ninguno. La regresión de PLS es una forma de regularización por contracción, vea mi respuesta en Teoría detrás de la regresión de mínimos cuadrados parciales para un poco de contexto y visión general. Los estimadores regularizados están sesgados, por lo que ninguna cantidad de suposiciones probará, por ejemplo, la imparcialidad.

Además, el resultado real de la regresión PLS depende de cuántos componentes PLS se incluyen en el modelo, que actúa como un parámetro de regularización. Hablar sobre cualquier suposición solo tiene sentido si el procedimiento para seleccionar este parámetro está completamente especificado (y generalmente no lo está). Por lo tanto, no creo que haya ningún resultado de optimización para PLS, lo que significa que la regresión de PLS no tiene suposiciones. Creo que lo mismo es cierto para cualquier otro método de regresión penalizado, como la regresión de componentes principales o la regresión de cresta.

Actualización: he ampliado este argumento en mi respuesta a ¿Cuáles son los supuestos de la regresión de crestas y cómo probarlos?

Por supuesto, todavía puede haber reglas generales que indiquen cuándo es probable que la regresión PLS sea ​​útil y cuándo no. Por favor vea mi respuesta vinculada arriba para alguna discusión; los practicantes experimentados de PLSR (no soy uno de ellos) ciertamente podrían decir más sobre eso.

ameba dice reinstalar Monica
fuente
¿Qué pasa con la normalidad y la independencia del muestreo?
WCMC
3

Aparentemente, PLS no hace suposiciones "difíciles" sobre la distribución conjunta de sus variables. Esto significa que debe tener cuidado al elegir las estadísticas de prueba apropiadas (supongo que esta falta de dependencia de las distribuciones variables clasifica PLS como una técnica no paramétrica). Las sugerencias que encontré para las estadísticas apropiadas son 1) usar r cuadrado para variables latentes dependientes y 2) métodos de remuestreo para evaluar la estabilidad de las estimaciones.

La principal diferencia entre OLS / MLS y PLS es que el primero generalmente usa la estimación de máxima probabilidad de los parámetros de la población para predecir las relaciones entre las variables, mientras que PLS estima los valores de las variables para que la población real prediga las relaciones entre los grupos de variables (asociando grupos de predictores / variables de respuesta con variables latentes).

También estoy interesado en manejar experimentos repetidos / repetidos, específicamente multifactoriales, sin embargo, no estoy seguro de cómo abordar esto usando PLS.

Manual de mínimos cuadrados parciales: conceptos, métodos y aplicaciones (página 659, sección 28.4)

Wold, H. 2006. Especificación del predictor. Enciclopedia de ciencias estadísticas. 9)

http://www.rug.nl/staff/tkdijkstra/latentvariablesandindices.pdf (páginas 4 y 5)

ejspina
fuente