Christopher Bishop escribe en su libro Pattern Recognition and Machine Learning una prueba de que cada componente principal consecutivo maximiza la varianza de la proyección a una dimensión, después de que los datos se hayan proyectado en el espacio ortogonal a los componentes previamente seleccionados. Otros muestran pruebas similares.
Sin embargo, esto solo prueba que cada componente consecutivo es la mejor proyección para una dimensión, en términos de maximizar la varianza. ¿Por qué esto implica que la varianza de una proyección para decir 5 dimensiones se maximiza eligiendo primero tales componentes?
Respuestas:
Lo que se entiende por varianza en varias dimensiones ("varianza total") es simplemente una suma de varianzas en cada dimensión. Matemáticamente, es un rastro de la matriz de covarianza: el rastro es simplemente una suma de todos los elementos diagonales. Esta definición tiene varias propiedades agradables, por ejemplo, la traza es invariante bajo transformaciones lineales ortogonales, lo que significa que si gira sus ejes de coordenadas, la varianza total permanece igual.
Lo que se prueba en el libro de Bishop (sección 12.1.1), es que el vector propio líder de la matriz de covarianza da la dirección de la varianza máxima. El segundo vector propio proporciona la dirección de la varianza máxima bajo una restricción adicional de que debe ser ortogonal al primer vector propio, etc. (creo que esto constituye el ejercicio 12.1). Si el objetivo es maximizar la varianza total en el subespacio 2D, entonces este procedimiento es una maximización codiciosa: primero elija un eje que maximice la varianza, luego otro.
Su pregunta es: ¿por qué este codicioso procedimiento obtiene un máximo global?
Aquí hay un buen argumento que @whuber sugirió en los comentarios. Primero alineemos el sistema de coordenadas con los ejes PCA. La matriz de covarianza se convierte en diagonal: . Para simplificar, consideraremos el mismo caso 2D, es decir, ¿cuál es el plano con la varianza total máxima? Queremos demostrar que es el plano dado por los dos primeros vectores básicos (con varianza total ).Σ=diag(λi) λ1+λ2
Considere un plano atravesado por dos vectores ortogonales y . La varianza total en este plano esPor lo tanto, es una combinación lineal de valores propios con coeficientes que son todos positivos, no exceden (ver más abajo) y suman . Si es así, es casi obvio que el máximo se alcanza en .u v
Solo queda mostrar que los coeficientes no pueden exceder . Observe que , donde es el -ésimo vector base. Esta cantidad es una longitud al cuadrado de una proyección de en el plano atravesado por y . Por lo tanto, debe ser menor que la longitud al cuadrado de que es igual a , QED.1 u2k+v2k=(u⋅k)2+(v⋅k)2 k k k u v k |k|2=1
Ver también la respuesta de @ cardinal a ¿Cuál es la función objetivo de PCA? (Sigue la misma lógica).
fuente
Si tiene variables aleatorias no correlacionadas ordenadas en orden descendente de su varianza y se le pidió que eligiera de ellas de manera tal que se maximizara la varianza de su suma, ¿estaría de acuerdo en que el enfoque codicioso de elegir la primera lograría eso?N k k
Los datos proyectados en los vectores propios de su matriz de covarianza son esencialmente columnas de datos no correlacionadas y cuya varianza es igual a los valores propios respectivos.N
Para que la intuición sea más clara, necesitamos relacionar la maximización de la varianza con el cálculo del vector propio de la matriz de covarianza con el mayor valor propio, y relacionar la proyección ortogonal con la eliminación de correlaciones.
La segunda relación es clara para mí porque el coeficiente de correlación entre dos vectores (media cero) es proporcional a su producto interno.
La relación entre la varianza maximizadora y la descomposición propia de la matriz de covarianza es la siguiente.
Suponga que es la matriz de datos después de centrar las columnas. Necesitamos encontrar la dirección de la varianza máxima. Para cualquier vector unitario , la varianza después de proyectar a lo largo de esD v v
que se maximiza si es el vector propio de correspondiente al mayor valor propio.v Cov(D)
fuente