La función objetivo del Análisis de Componentes Principales (PCA) es minimizar el error de reconstrucción en la norma L2 (ver sección 2.12 aquí . Otra vista está tratando de maximizar la varianza en la proyección. También tenemos una excelente publicación aquí: ¿Cuál es la función objetivo de PCA? ? )
Mi pregunta es que es la optimización de PCA convexa? (Encontré algunas discusiones aquí , pero desearía que alguien pudiera proporcionar una buena prueba aquí en CV).
machine-learning
pca
optimization
convex
Haitao Du
fuente
fuente
Respuestas:
No, las formulaciones habituales de PCA no son problemas convexos. Pero pueden transformarse en un problema de optimización convexo.
La idea y la diversión de esto es seguir y visualizar la secuencia de transformaciones en lugar de solo obtener la respuesta: se basa en el viaje, no en el destino. Los principales pasos en este viaje son
Obtenga una expresión simple para la función objetivo.
Amplíe su dominio, que no es convexo, en uno que sí lo sea.
Modifique el objetivo, que no es convexo, en uno que lo sea, de una manera que obviamente no cambia los puntos en los que alcanza sus valores óptimos.
Si observa de cerca, puede ver los multiplicadores SVD y Lagrange al acecho, pero son solo un espectáculo secundario, allí por interés paisajístico, y no comentaré más sobre ellos.
La formulación estándar de PCA que maximiza la varianza (o al menos su paso clave) es
donde la matriz A es una matriz simétrica, semidefinida positiva construida a partir de los datos (generalmente su suma de cuadrados y matriz de productos, su matriz de covarianza o su matriz de correlación).n×n A
(De manera equivalente, podemos tratar de maximizar el objetivo sin restricciones . No solo es una expresión desagradable, ya no es una función cuadrática, sino que graficar casos especiales mostrará rápidamente que no es una función convexa , o bien. Por lo general, se observa que esta función es invariante bajo los cambios de escala x → λ x y luego se reduce a la formulación restringida ( ∗ ) .)x′Ax/x′x x→λx (∗)
Cualquier problema de optimización puede formularse de manera abstracta como
Recuerde que un problema de optimización es convexo cuando disfruta de dos propiedades separadas:
El dominio es convexo.X⊂Rn Esto se puede formular de muchas maneras. Una es que siempre que e y ∈ X y 0 ≤ λ ≤ 1 , λ x + ( 1 - λ ) y ∈ X también. Geométricamente: siempre que dos puntos finales de una mentira segmento de línea en X , toda la mentiras segmento en X .x∈X y∈X 0≤λ≤1 λx+(1−λ)y∈X X X
La función es convexa.f Esto también se puede formular de muchas maneras. Una es que siempre que e y ∈ X y 0 ≤ λ ≤ 1 , f ( λ x + ( 1 - λ ) y ) ≥ λ f ( x ) + ( 1 - λ ) f ( y ) . (Necesitábamos Xx∈X y∈X 0≤λ≤1
El arquetipo de una función convexa es localmente parabólico en todas partes con coeficiente principal no positivo: en cualquier segmento de línea se puede expresar en la forma con un ≤ 0.y→ay2+by+c a≤0.
Una dificultad con es que X es la esfera unitaria S n - 1 ⊂ R n , que definitivamente no es convexa.(∗) X Sn−1⊂Rn Sin embargo, podemos modificar este problema incluyendo vectores más pequeños. Esto se debe a que cuando escalamos por un factor λ , f se multiplica por λ 2 . Cuando 0 < x ′ x < 1 , podemos escalar x hasta la longitud de la unidad multiplicándola por λ = 1 / √x λ f λ2 0<x′x<1 x , aumentando asífpero permaneciendo dentro de la bola unitariaDn={x∈ R n∣x′x≤1}. Por lo tanto, reformulemos(∗)comoλ=1/x′x−−−√>1 f Dn={x∈Rn∣x′x≤1} (∗)
Su dominio es que claramente es convexo, por lo que estamos a medio camino. Queda por considerar la convexidad de la gráfica de f .X=Dn f
Una buena forma de pensar sobre el problema incluso si no tiene la intención de realizar los cálculos correspondientes, es en términos del Teorema espectral.(∗∗) Dice que por medio de una transformación ortogonal , puede encontrar al menos una base de R n en la que A es diagonal: es decir,P Rn A
fuente
No.
Aunque la norma es convexa, el conjunto sobre el que está optimizado no es convexo.
Una relajación convexa del problema de PCA se llama aproximación convexa de bajo rango
( es la norma nuclear . es la relajación convexa del rango, al igual que es la relajación convexa del número de elementos distintos de cero para los vectores) ‖ ⋅ ‖ 1∥⋅∥∗ ∥⋅∥1
Puede ver Aprendizaje estadístico con dispersión , capítulo 6 (descomposiciones de matriz) para más detalles.
Si está interesado en problemas más generales y cómo se relacionan con la convexidad, consulte Modelos generalizados de bajo rango .
fuente
Descargo de responsabilidad: las respuestas anteriores hacen un trabajo bastante bueno al explicar cómo la PCA en su formulación original no es convexa, pero puede convertirse en un problema de optimización convexa. Mi respuesta solo está dirigida a esas pobres almas (como yo) que no están tan familiarizadas con la jerga de las Esferas de la Unidad y las SVD, lo cual es, por cierto, bueno saber.
Mi fuente son estas notas de clase del profesor Tibshirani
Para que un problema de optimización se resuelva con técnicas de optimización convexa, hay dos requisitos previos.
La mayoría de las formulaciones de PCA implican una restricción en el rango de una matriz.
fuente