Respuesta de una sola palabra: ambas.
X2
∥X∥2=sup∥Xv∥2∥v∥2=max(si)
∥X∥F=∑ijX2ij−−−−−−√=tr(X⊤X)=∑s2i−−−−−√,
siXSX=USV⊤
PCA viene dada por la misma descomposición de valores singulares cuando los datos están centrados. US son componentes principales, V son ejes principales, es decir, vectores propios de la matriz de covarianza, y la reconstrucción de X con solo los k componentes principales correspondientes a los k valores singulares más grandes está dada por Xk=UkSkV⊤k .
El teorema de Eckart-Young dice que es la matriz que minimiza la norma del error de reconstrucciónentre todas las matrices de rango . Esto es cierto tanto para la norma Frobenius como para el operador -norm. Como señaló @cardinal en los comentarios, Schmidt (de la fama de Gram-Schmidt) demostró por primera vez en 1907 para el caso Frobenius. Más tarde fue redescubierto por Eckart y Young en 1936 y ahora está asociado principalmente con sus nombres. Mirsky generalizó el teorema en 1958 a todas las normas que son invariables bajo transformaciones unitarias, y esto incluye el operador 2-norma.Xk∥X−A∥Ak2
Este teorema a veces se llama teorema de Eckart-Young-Mirsky. Stewart (1993) lo llama teorema de aproximación de Schmidt. Incluso lo he visto llamado teorema de Schmidt-Eckart-Young-Mirsky.
Prueba para el operador -norm2
Deje ser de rango completo . Como es de rango , su espacio nulo tiene dimensiones. El espacio que abarcan los vectores singulares derechos de correspondientes a los valores singulares más grandes tiene dimensiones. Entonces estos dos espacios deben cruzarse. Sea un vector unitario desde la intersección. Luego obtenemos:
QED.XnAkn−kk+1Xk+1w
∥X−A∥22≥∥(X−A)w∥22=∥Xw∥22=∑i=1k+1s2i(v⊤iw)2≥s2k+1=∥X−Xk∥22,
Prueba de la norma Frobenius
Queremos encontrar la matriz de rango que minimice . Podemos factorizar , donde tiene columnas ortonormales. Minimizar para fijo es un problema de regresión con la solución . Al enchufarlo, vemos que ahora necesitamos minimizar donde es la matriz de covarianza de , es decir,Ak∥X−A∥2FA=BW⊤Wk∥X−BW⊤∥2WB=XW
∥X−XWW⊤∥2=∥X∥2−∥XWW⊤∥2=const−tr(WW⊤X⊤XWW⊤)=const−const⋅tr(W⊤ΣW),
ΣXΣ=X⊤X/(n−1). Este error de reconstrucción medios que se minimiza tomando como columnas de algunos ortonormal vectores de la maximización de la varianza total de la proyección.
Wk
Es bien sabido que estos son los primeros vectores propios de la matriz de covarianza. De hecho, si , entonces . Escribiendo que también tiene columnas ortonormales, obtenemos con el máximo alcanzado cuando . El teorema entonces sigue inmediatamente.kX=USV⊤Σ=VS2V⊤/(n−1)=VΛV⊤R=V⊤W
tr(W⊤ΣW)=tr(R⊤ΛR)=∑iλi∑jR2ij≤∑i=1kλk,
W=Vk
Consulte los siguientes tres hilos relacionados:
Intento anterior de una prueba para la norma Frobenius
Esta prueba la encontré en algún lugar en línea pero está mal (contiene un vacío), como explica @cardinal en los comentarios.
La norma de Frobenius es invariante bajo transformaciones unitarias, porque no cambian los valores singulares. Entonces obtenemos: donde . Continuando:Esto se minimiza cuando todos los elementos fuera de la diagonal de son cero y todos los términos diagonales cancelan los valores singulares más grandes [espacio aquí: esto no es obvio] , es decir, y, por lo tanto, .
∥X−A∥F=∥USV⊤−A∥=∥S−U⊤AV∥=∥S−B∥,
B=U⊤AV∥X−A∥F=∑ij(Sij−Bij)2=∑i(si−Bii)2+∑i≠jB2ij.
Bkksi Boptimal=SkAoptimal=UkSkV⊤k