Estoy tratando de encontrar información sobre los supuestos de la regresión PLS ( simple ). Estoy especialmente interesado en una comparación de los supuestos de PLS con respecto a los de la regresión de OLS.
He leído / hojeado una gran cantidad de literatura sobre el tema de PLS; documentos de Wold (Svante y Herman), Abdi y muchos otros, pero no han encontrado una fuente satisfactoria.
Wold y col. (2001) Regresión PLS: una herramienta básica de quimiometría menciona supuestos de PLS, pero solo menciona que
- Las X no necesitan ser independientes,
- el sistema es una función de algunas variables latentes subyacentes,
- el sistema debe exhibir homogeneidad durante todo el proceso analítico, y
- El error de medición en es aceptable.
No se mencionan los requisitos de los datos observados o los residuos del modelo. ¿Alguien sabe de una fuente que aborde algo de esto? Teniendo en cuenta que las matemáticas subyacentes son análogas a PCA (con el objetivo de maximizar la covarianza entre y X ), ¿es una suposición la normalidad multivariada de ( y , X ) ? ¿Los residuos del modelo necesitan exhibir homogeneidad de varianza?
También creo que leí en alguna parte que las observaciones no necesitan ser independientes; ¿Qué significa esto en términos de estudios de medidas repetidas?
fuente
Respuestas:
En términos más generales, los "supuestos" son algo que solo un resultado teórico (teorema) puede tener.
Además, el resultado real de la regresión PLS depende de cuántos componentes PLS se incluyen en el modelo, que actúa como un parámetro de regularización. Hablar sobre cualquier suposición solo tiene sentido si el procedimiento para seleccionar este parámetro está completamente especificado (y generalmente no lo está). Por lo tanto, no creo que haya ningún resultado de optimización para PLS, lo que significa que la regresión de PLS no tiene suposiciones. Creo que lo mismo es cierto para cualquier otro método de regresión penalizado, como la regresión de componentes principales o la regresión de cresta.
Actualización: he ampliado este argumento en mi respuesta a ¿Cuáles son los supuestos de la regresión de crestas y cómo probarlos?
Por supuesto, todavía puede haber reglas generales que indiquen cuándo es probable que la regresión PLS sea útil y cuándo no. Por favor vea mi respuesta vinculada arriba para alguna discusión; los practicantes experimentados de PLSR (no soy uno de ellos) ciertamente podrían decir más sobre eso.
fuente
Aparentemente, PLS no hace suposiciones "difíciles" sobre la distribución conjunta de sus variables. Esto significa que debe tener cuidado al elegir las estadísticas de prueba apropiadas (supongo que esta falta de dependencia de las distribuciones variables clasifica PLS como una técnica no paramétrica). Las sugerencias que encontré para las estadísticas apropiadas son 1) usar r cuadrado para variables latentes dependientes y 2) métodos de remuestreo para evaluar la estabilidad de las estimaciones.
La principal diferencia entre OLS / MLS y PLS es que el primero generalmente usa la estimación de máxima probabilidad de los parámetros de la población para predecir las relaciones entre las variables, mientras que PLS estima los valores de las variables para que la población real prediga las relaciones entre los grupos de variables (asociando grupos de predictores / variables de respuesta con variables latentes).
También estoy interesado en manejar experimentos repetidos / repetidos, específicamente multifactoriales, sin embargo, no estoy seguro de cómo abordar esto usando PLS.
Manual de mínimos cuadrados parciales: conceptos, métodos y aplicaciones (página 659, sección 28.4)
Wold, H. 2006. Especificación del predictor. Enciclopedia de ciencias estadísticas. 9)
http://www.rug.nl/staff/tkdijkstra/latentvariablesandindices.pdf (páginas 4 y 5)
fuente