Tengo un conjunto de datos que consta de 10 variables. Ejecuté mínimos cuadrados parciales (PLS) para predecir una variable de respuesta única por estas 10 variables, extraje 10 componentes PLS y luego calculé la varianza de cada componente. En los datos originales tomé la suma de las varianzas de todas las variables, que es 702.
Luego dividí la varianza de cada uno de los componentes de PLS por esta suma para obtener el porcentaje de la varianza explicada por el PLS, y sorprendentemente todos los componentes juntos solo explican el 44% de la varianza original.
¿Cuál es la explicación de eso? ¿No debería ser 100%?
Respuestas:
La suma de las variaciones de todos los componentes PLS es normalmente inferior al 100%.
Tenga en cuenta que los vectores de peso no tienen que ser (y no son) ortogonales.
Esto significa que si consiste en variables y encontró componentes PLS, entonces encontró una base no ortogonal con proyecciones no correlacionadas en los vectores de base. Se puede demostrar que matemáticamente en una situación así la suma de las varianzas de todas estas proyecciones, será inferior a la varianza total de . Serían iguales si los vectores de peso fueran ortogonales (como, por ejemplo, en PCA), pero en PLS este no es el caso.X k=10 10 X
No conozco ningún libro de texto o documento que explique explícitamente este problema, pero lo he explicado anteriormente en el contexto del análisis discriminante lineal (LDA) que también produce una cantidad de proyecciones no correlacionadas en vectores de peso unitario no ortogonales, vea aquí : Proporción de la varianza explicada en PCA y LDA .
fuente
PCTVAR
(porcentaje de varianza explicada en X) no está de acuerdo con sus cálculos? ¿O pregunta por la segunda columna (porcentaje de varianza explicado en y)? En general, si desea entrar en matemáticas PLS, le sugiero que comience a leer el documento de Rosipal & Kramer y siga los enlaces.