¿Cuál es la función objetivo de PCA?

42

El análisis de componentes principales puede usar la descomposición de la matriz, pero eso es solo una herramienta para llegar allí.

¿Cómo encontrarías los componentes principales sin el uso de álgebra matricial?

¿Cuál es la función objetivo (meta) y cuáles son las restricciones?

Neil McGuigan
fuente
1
Tal vez me falta algo, así que corríjame si me equivoco, pero debería ser posible (al menos en principio) construir lo que se hace en PCA utilizando matrices como un problema de programación lineal (complicado), pero no sepa cómo declararía todas las restricciones requeridas. Además, no estoy seguro de que sea muy fácil de hacer en comparación con solo usar PCA. ¿Por qué estás tratando de evitar matrices?
Chris Simokat
@ Chris No veo cómo se puede llegar a un problema de programación lineal. Tampoco entendí que las matrices deberían evitarse en el cálculo . La pregunta era qué tipo de problema resuelve la PCA y no la forma en que se hace (calculando la SVD, por ejemplo). La solución del cardenal dice que encuentra sucesivas direcciones ortogonales de máxima varianza . La solución que presenté dice que encuentras hiperplanos con un mínimo error de reconstrucción.
NRH
@chris Espero encontrar otra forma de ver PCA, sin el álgebra matricial, para aumentar mi comprensión de él.
Neil McGuigan
1
@ Chris, tienes una función objetivo cuadrática y una restricción de igualdad de norma 2 . Alternativamente, bajo la formulación en la respuesta de @ NRH, tiene una restricción de rango de matriz. Eso no se reducirá a un problema de programación lineal. @NRH ofrece una buena intuición y, de hecho, existe una conexión muy estrecha entre las dos perspectivas sobre PCA que se han dado. Quizás en colaboración con @NRH, podamos agregar eso a su publicación para que el conjunto completo de respuestas sea más completo.
cardenal
1
@NRH, en realidad, me gusta mucho ESL , pero creo que el tratamiento de este tema es bastante superficial, como lo es para muchos de los temas del libro. En particular, no prueban (o incluso asignan como ejercicio) la parte importante de la solución para el problema de optimización que usted brinda.
cardenal

Respuestas:

41

Sin tratar de dar una cartilla completa sobre PCA, desde el punto de vista de la optimización, la función objetivo principal es el cociente de Rayleigh . La matriz que figura en el cociente es (algún múltiplo de) la matriz de covarianza de muestra , donde cada es un vector de características y es la matriz de tal manera que el -ésimo renglón es .

S=1ni=1nxixiT=XTX/n
xipXixiT

PCA busca resolver una secuencia de problemas de optimización. El primero en la secuencia es el problema sin restricciones

maximizeuTSuuTu,uRp.

Desde, el problema sin restricciones anterior es equivalente al problema restringido uTu=u22=uu

maximizeuTSusubject touTu=1.

Aquí es donde entra el álgebra matricial. Dado que es una matriz semidefinida positiva simétrica (¡por construcción!) Tiene una descomposición de valor propio de la forma donde es un matriz ortogonal (entonces ) y es una matriz diagonal con entradas no negativas tal que .S

S=QΛQT,
QQQT=IΛλiλ1λ2λp0

Por lo tanto, . Como está limitado en el problema a tener una norma de uno, entonces también lo está ya que , en virtud de que es ortogonal.uTSu=uTQΛQTu=wTΛw=i=1pλiwi2uww2=QTu2=u2=1Q

Pero, si queremos maximizar la cantidad bajo las restricciones que , entonces lo mejor que podemos hacer es set , es decir, y para .i=1pλiwi2i=1pwi2=1w=e1w1=1wi=0i>1

Ahora, retrocediendo el correspondiente , que es lo que buscamos en primer lugar, obtenemos que donde denota la primera columna de , es decir, el vector propio que corresponde al valor propio más grande de . El valor de la función objetivo también se ve fácilmente como .u

u=Qe1=q1
q1QSλ1

Los restantes vectores componentes principales se encuentran resolviendo la secuencia (indexada por ) de los problemas de optimización Entonces, el problema es el mismo, excepto que agregamos la restricción adicional de que la solución debe ser ortogonal a todas las soluciones anteriores en la secuencia. No es difícil extender el argumento anterior inductivamente para demostrar que la solución de la ésimo problema es, de hecho, , el ésimo vector propio de .i

maximizeuiTSuisubject touiTui=1uiTuj=01j<i.
iqiiS

La solución PCA también se expresa a menudo en términos de la descomposición del valor singular de . Para ver por qué, vamos a . Entonces y así (estrictamente hablando, hasta firmar flips) y .XX=UDVTnS=XTX=VD2VTV=QΛ=D2/n

Los componentes principales se encuentran proyectando en los vectores de componentes principales. De la formulación SVD recién dada, es fácil ver que X

XQ=XV=UDVTV=UD.

La simplicidad de la representación de los vectores componentes principales y los componentes principales en sí mismos en términos de la SVD de la matriz de características es una de las razones por las cuales la SVD se destaca tan prominentemente en algunos tratamientos de PCA.

cardenal
fuente
Si solo se necesitan los primeros pocos valores / vectores singulares, Nash y Shlien ofrecen un algoritmo que recuerda el método de potencia habitual para calcular valores propios dominantes. Esto puede ser de interés para el OP.
JM no es estadístico
@NRH, ¡Gracias por detectar (y corregir) mis errores tipográficos antes de que pudiera verlos!
Cardenal
1
Hola @cardinal, gracias por tu respuesta. Pero parece que no dio el paso de probar por qué la optimización secuencial conduce a un óptimo global. ¿Podrías por favor explicar eso? ¡Gracias!
Lifu Huang
21

La solución presentada por cardinal se centra en la matriz de covarianza de la muestra. Otro punto de partida es el error de reconstrucción de los datos por un hiperplano q -dimensional. Si los puntos de datos p -dimensionales son el objetivo es resolverx1,,xn

minμ,λ1,,λn,Vqi=1n||xiμVqλi||2

para una matriz con columnas ortonormales y . Esto proporciona la mejor reconstrucción de rango q medida por la norma euclidiana, y las columnas de la solución son los primeros q componentes principales vectores.p×qVqλiRqVq

Para fijo la solución para y (esto es regresión) son Vqμλi

μ=x¯=1ni=1nxiλi=VqT(xix¯)

Para facilitar la notación, supongamos que se ha centrado en los siguientes cálculos. Luego tenemos que minimizar xi

i=1n||xiVqVqTxi||2

sobre con columnas ortonormales. Tenga en cuenta que es la proyección en el espacio de columna q -dimensional. Por lo tanto, el problema es equivalente a minimizar sobre rango q proyecciones . Es decir, necesitamos maximizar sobre las proyecciones de rango q , donde es la matriz de covarianza de muestra. AhoraVqP=VqVqT

i=1n||xiPxi||2=i=1n||xi||2i=1n||Pxi||2
P
i=1n||Pxi||2=i=1nxiTPxi=tr(Pi=1nxixiT)=ntr(PS)
PS
tr(PS)=tr(VqTSVq)=i=1quiTSui
donde son las columnas (ortonormal) en , y los argumentos presentados en la respuesta de @ cardinal muestran que el máximo se obtiene tomando el ' s ser vectores propios para con los valores propios más grandes.u1,,uqqVquiqSq

El error de reconstrucción sugiere una serie de generalizaciones útiles, por ejemplo, componentes principales dispersos o reconstrucciones por colectores de baja dimensión en lugar de hiperplanos. Para más detalles, consulte la Sección 14.5 en Los elementos del aprendizaje estadístico .

NRH
fuente
(+1) Buenos puntos. Algunas sugerencias: Sería bueno definir y sería realmente bueno dar una breve prueba del resultado. O, alternativamente, se puede conectar al problema de optimización que involucra a los cocientes de Rayleight. ¡Creo que eso haría que las respuestas a esta pregunta fueran muy completas! λi
Cardenal
@cardinal, creo que completé los pasos que faltan para pasar de la formulación de reconstrucción al problema que resuelve.
NRH
Buen trabajo. Creo que la única brecha restante está en su última declaración. No es evidente de inmediato que optimizar la suma es lo mismo que realizar la secuencia de optimizaciones en mi respuesta. De hecho, no creo que se siga directamente, en general. Pero tampoco es necesario abordarlo aquí.
Cardenal
@ cardinal, se sigue por inducción. Proporciona el inicio de la inducción y, en el paso de inducción, elige los vectores ortonormales que maximizan la suma y la organizan de modo que sea ​​un vector unitario ortogonal a . Luego, según sus resultados, y mediante el supuesto de inducción . Por supuesto, la base no es una base única para el espacio -dimensional. También puede generalizar el "argumento de combinación convexo" que utiliza para dar una prueba directa. w1,,wqwqu1,,uq1wqTSwquqTSuqi=1q1wiTSwii=1q1uiTSuiq
NRH
1
@cardinal, no estoy forzando un anidamiento, simplemente usando una consideración de dimensión. Si tenemos un subespacio -dimensional, siempre puede elegir en ese espacio de modo que sea ortogonal a un subespacio . Luego, llene la base de la forma que desee. qwq(q1)w
NRH
4

Ver NIPALS ( wiki ) para un algoritmo que no usa explícitamente una descomposición de matriz. Supongo que eso es lo que quieres decir cuando dices que quieres evitar el álgebra matricial ya que realmente no puedes evitar el álgebra matricial aquí :)

JMS
fuente