¿Qué norma del error de reconstrucción es minimizada por la matriz de aproximación de bajo rango obtenida con PCA?

Respuestas:

30

Respuesta de una sola palabra: ambas.


X2

X2=supXv2v2=max(si)
XF=ijXij2=tr(XX)=si2,
siXSX=USV

PCA viene dada por la misma descomposición de valores singulares cuando los datos están centrados. US son componentes principales, V son ejes principales, es decir, vectores propios de la matriz de covarianza, y la reconstrucción de X con solo los k componentes principales correspondientes a los k valores singulares más grandes está dada por Xk=UkSkVk .

El teorema de Eckart-Young dice que es la matriz que minimiza la norma del error de reconstrucciónentre todas las matrices de rango . Esto es cierto tanto para la norma Frobenius como para el operador -norm. Como señaló @cardinal en los comentarios, Schmidt (de la fama de Gram-Schmidt) demostró por primera vez en 1907 para el caso Frobenius. Más tarde fue redescubierto por Eckart y Young en 1936 y ahora está asociado principalmente con sus nombres. Mirsky generalizó el teorema en 1958 a todas las normas que son invariables bajo transformaciones unitarias, y esto incluye el operador 2-norma.XkXAAk2

Este teorema a veces se llama teorema de Eckart-Young-Mirsky. Stewart (1993) lo llama teorema de aproximación de Schmidt. Incluso lo he visto llamado teorema de Schmidt-Eckart-Young-Mirsky.


Prueba para el operador -norm2

Deje ser de rango completo . Como es de rango , su espacio nulo tiene dimensiones. El espacio que abarcan los vectores singulares derechos de correspondientes a los valores singulares más grandes tiene dimensiones. Entonces estos dos espacios deben cruzarse. Sea un vector unitario desde la intersección. Luego obtenemos: QED.XnAknkk+1Xk+1w

XA22(XA)w22=Xw22=i=1k+1si2(viw)2sk+12=XXk22,

Prueba de la norma Frobenius

Queremos encontrar la matriz de rango que minimice . Podemos factorizar , donde tiene columnas ortonormales. Minimizar para fijo es un problema de regresión con la solución . Al enchufarlo, vemos que ahora necesitamos minimizar donde es la matriz de covarianza de , es decir,AkXAF2A=BWWkXBW2WB=XW

XXWW2=X2XWW2=consttr(WWXXWW)=constconsttr(WΣW),
ΣXΣ=XX/(n1). Este error de reconstrucción medios que se minimiza tomando como columnas de algunos ortonormal vectores de la maximización de la varianza total de la proyección.Wk

Es bien sabido que estos son los primeros vectores propios de la matriz de covarianza. De hecho, si , entonces . Escribiendo que también tiene columnas ortonormales, obtenemos con el máximo alcanzado cuando . El teorema entonces sigue inmediatamente.kX=USVΣ=VS2V/(n1)=VΛVR=VW

tr(WΣW)=tr(RΛR)=iλijRij2i=1kλk,
W=Vk

Consulte los siguientes tres hilos relacionados:


Intento anterior de una prueba para la norma Frobenius

Esta prueba la encontré en algún lugar en línea pero está mal (contiene un vacío), como explica @cardinal en los comentarios.

La norma de Frobenius es invariante bajo transformaciones unitarias, porque no cambian los valores singulares. Entonces obtenemos: donde . Continuando:Esto se minimiza cuando todos los elementos fuera de la diagonal de son cero y todos los términos diagonales cancelan los valores singulares más grandes [espacio aquí: esto no es obvio] , es decir, y, por lo tanto, .

XAF=USVA=SUAV=SB,
B=UAV
XAF=ij(SijBij)2=i(siBii)2+ijBij2.
Bkksi Boptimal=SkAoptimal=UkSkVk
ameba dice Reinstate Monica
fuente
2
La prueba en el caso de la norma de Frobeniius no es correcta (o al menos completa) ya que el argumento aquí no excluye la posibilidad de que una matriz del mismo rango pueda cancelar algunos de los otros términos diagonales mientras tiene un "pequeño" off- diagonales Para ver la brecha más claramente, tenga en cuenta que mantener las diagonales constantes y "poner a cero" las diagonales a menudo puede aumentar el rango de la matriz en cuestión.
cardenal
1
Tenga en cuenta también que el SVD era conocido por Beltrami (al menos en un caso bastante general, aunque especial) y Jordania ya en 1874.
cardenal
@ cardinal: Hmmmm, no estoy seguro de ver la brecha. Si cancela algunos otros términos diagonales en en lugar de más grandes y tiene algunos términos no diagonales distintos de cero, entonces ambas sumas, y , van a aumentar. Por lo tanto, solo aumentará el error de reconstrucción. ¿No? Aún así, traté de encontrar otra prueba de la norma Frobenius en la literatura, y he leído que de alguna manera debería seguir fácilmente el caso de la norma del operador. Pero hasta ahora no veo cómo debería seguir ...BSki(siBii)2ijBij2
ameba dice Reinstate Monica
3
Yo hago como GW Stewart (1993), En la historia temprana de la descomposición en valores singulares, SIAM Revisión , vol. 35, no. 4, 551-566 y, dado su interés demostrado previamente en asuntos históricos, creo que usted también lo hará. Desafortunadamente, creo que Stewart es involuntariamente despreciativo de la elegancia de la prueba de Schmidt de 1907. Oculto dentro de él hay una interpretación de regresión que Stewart pasa por alto y que es realmente bastante bonita. Hay otra prueba que sigue el enfoque de diagonalización inicial que adoptas, pero que requiere un poco de trabajo adicional para llenar el vacío. (cont.)
cardenal
2
@cardinal: Sí, tienes razón, ahora también veo la brecha. Muchas gracias por el artículo de Stewart, esa fue una lectura muy interesante. Veo que Stewart presenta las pruebas de Schmidt y Weyl, pero ambas parecen más complicadas de lo que me gustaría copiar aquí (y hasta ahora no he tenido tiempo de estudiarlas detenidamente). Estoy sorprendido: esperaba que este fuera un resultado muy simple, pero parece que es menos trivial de lo que pensaba. En particular, no hubiera esperado que el caso Frobenius fuera mucho más complicado que la norma del operador. Editaré la publicación ahora. ¡Feliz año nuevo!
ameba dice Reinstate Monica