¿La regresión de rango reducido y la regresión de componentes principales son solo casos especiales de mínimos cuadrados parciales?
Este tutorial (Página 6, "Comparación de objetivos") establece que cuando hacemos mínimos cuadrados parciales sin proyectar X o Y (es decir, "no parcial"), se convierte en regresión de rango reducido o regresión de componente principal, correspondientemente.
Se hace una declaración similar en esta página de documentación de SAS , Secciones "Regresión de rango reducido" y "Relaciones entre métodos".
Una pregunta de seguimiento más fundamental es si tienen modelos probabilísticos subyacentes similares.
Respuestas:
Estos son tres métodos diferentes, y ninguno de ellos puede verse como un caso especial de otro.
Formalmente, si e Y son conjuntos de datos predictivos centrados ( n × p ) y de respuesta ( n × q ) y si buscamos el primer par de ejes, w ∈ R p para X y v ∈ R q para Y , entonces estos métodos maximizar las siguientes cantidades:X Y n×p n×q w∈Rp X v∈Rq Y
(Agregué el análisis de correlación canónica (CCA) a esta lista).
Sospecho que la confusión podría deberse a que en SAS los tres métodos parecen implementarse a través de la misma función
PROC PLS
con diferentes parámetros. Por lo tanto, puede parecer que los tres métodos son casos especiales de PLS porque así es como se llama la función SAS. Sin embargo, este es solo un nombre desafortunado. En realidad, PLS, RRR y PCR son tres métodos diferentes que simplemente se implementan en SAS en una función que por alguna razón se llamaPLS
.Ambos tutoriales a los que se vinculó son realmente muy claros al respecto. La página 6 del tutorial de presentación establece los objetivos de los tres métodos y no dice que PLS "se convierte" en RRR o PCR, al contrario de lo que afirmó en su pregunta. Del mismo modo, la documentación de SAS explica que tres métodos son diferentes, dando fórmulas e intuición:
Incluso hay una figura en la documentación de SAS que muestra un buen ejemplo de juguete donde tres métodos dan soluciones diferentes. En este ejemplo de juguete hay dos predictores y x 2 y una variable de respuesta y . La dirección en la X que está más correlacionado con y pasa a ser ortogonal a la dirección de la varianza máxima en X . Por lo tanto, PC1 es ortogonal al primer eje RRR, y el eje PLS está en algún punto intermedio.x1 x2 y X y X
Se puede agregar una penalización de cresta a la función perdida RRR obteniendo regresión de rango reducido de cresta, o RRRR. Esto empujará el eje de regresión hacia la dirección PC1, algo similar a lo que está haciendo PLS. Sin embargo, la función de costo para RRRR no se puede escribir en un formulario PLS, por lo que siguen siendo diferentes.
Tenga en cuenta que cuando solo hay una variable predictora , CCA = RRR = regresión habitual.y
fuente