El análisis de componentes principales puede usar la descomposición de la matriz, pero eso es solo una herramienta para llegar allí.
¿Cómo encontrarías los componentes principales sin el uso de álgebra matricial?
¿Cuál es la función objetivo (meta) y cuáles son las restricciones?
Respuestas:
Sin tratar de dar una cartilla completa sobre PCA, desde el punto de vista de la optimización, la función objetivo principal es el cociente de Rayleigh . La matriz que figura en el cociente es (algún múltiplo de) la matriz de covarianza de muestra , donde cada es un vector de características y es la matriz de tal manera que el -ésimo renglón es .
PCA busca resolver una secuencia de problemas de optimización. El primero en la secuencia es el problema sin restricciones
Desde, el problema sin restricciones anterior es equivalente al problema restringidouTu=∥u∥22=∥u∥∥u∥
Aquí es donde entra el álgebra matricial. Dado que es una matriz semidefinida positiva simétrica (¡por construcción!) Tiene una descomposición de valor propio de la forma donde es un matriz ortogonal (entonces ) y es una matriz diagonal con entradas no negativas tal que .S
Por lo tanto, . Como está limitado en el problema a tener una norma de uno, entonces también lo está ya que , en virtud de que es ortogonal.uTSu=uTQΛQTu=wTΛw=∑pi=1λiw2i u w ∥w∥2=∥QTu∥2=∥u∥2=1 Q
Pero, si queremos maximizar la cantidad bajo las restricciones que , entonces lo mejor que podemos hacer es set , es decir, y para .∑pi=1λiw2i ∑pi=1w2i=1 w=e1 w1=1 wi=0 i>1
Ahora, retrocediendo el correspondiente , que es lo que buscamos en primer lugar, obtenemos que donde denota la primera columna de , es decir, el vector propio que corresponde al valor propio más grande de . El valor de la función objetivo también se ve fácilmente como .u
Los restantes vectores componentes principales se encuentran resolviendo la secuencia (indexada por ) de los problemas de optimización Entonces, el problema es el mismo, excepto que agregamos la restricción adicional de que la solución debe ser ortogonal a todas las soluciones anteriores en la secuencia. No es difícil extender el argumento anterior inductivamente para demostrar que la solución de la ésimo problema es, de hecho, , el ésimo vector propio de .i
La solución PCA también se expresa a menudo en términos de la descomposición del valor singular de . Para ver por qué, vamos a . Entonces y así (estrictamente hablando, hasta firmar flips) y .X X=UDVT nS=XTX=VD2VT V=Q Λ=D2/n
Los componentes principales se encuentran proyectando en los vectores de componentes principales. De la formulación SVD recién dada, es fácil ver queX
La simplicidad de la representación de los vectores componentes principales y los componentes principales en sí mismos en términos de la SVD de la matriz de características es una de las razones por las cuales la SVD se destaca tan prominentemente en algunos tratamientos de PCA.
fuente
La solución presentada por cardinal se centra en la matriz de covarianza de la muestra. Otro punto de partida es el error de reconstrucción de los datos por un hiperplano q -dimensional. Si los puntos de datos p -dimensionales son el objetivo es resolverx1,…,xn
para una matriz con columnas ortonormales y . Esto proporciona la mejor reconstrucción de rango q medida por la norma euclidiana, y las columnas de la solución son los primeros q componentes principales vectores.p×q Vq λi∈Rq Vq
Para fijo la solución para y (esto es regresión) sonVq μ λi
Para facilitar la notación, supongamos que se ha centrado en los siguientes cálculos. Luego tenemos que minimizarxi
sobre con columnas ortonormales. Tenga en cuenta que es la proyección en el espacio de columna q -dimensional. Por lo tanto, el problema es equivalente a minimizar sobre rango q proyecciones . Es decir, necesitamos maximizar sobre las proyecciones de rango q , donde es la matriz de covarianza de muestra. AhoraVq P=VqVTq
El error de reconstrucción sugiere una serie de generalizaciones útiles, por ejemplo, componentes principales dispersos o reconstrucciones por colectores de baja dimensión en lugar de hiperplanos. Para más detalles, consulte la Sección 14.5 en Los elementos del aprendizaje estadístico .
fuente
Ver NIPALS ( wiki ) para un algoritmo que no usa explícitamente una descomposición de matriz. Supongo que eso es lo que quieres decir cuando dices que quieres evitar el álgebra matricial ya que realmente no puedes evitar el álgebra matricial aquí :)
fuente