¿Cómo blanquear los datos usando el análisis de componentes principales?

18

Quiero transformar mis datos modo que las variaciones sean una y las covarianzas sean cero (es decir, quiero blanquear los datos). Además, los medios deben ser cero.X

Sé que llegaré allí haciendo la estandarización Z y la transformación PCA, pero ¿en qué orden debo hacerlo?

Debo agregar que la transformación de blanqueamiento compuesta debe tener la forma .xWx+b

¿Existe un método similar a PCA que hace exactamente ambas transformaciones y me da una fórmula del formulario anterior?

Angelorf
fuente
(Mi primer comentario se basó en leer mal su pregunta). PCA le da cero covarianzas; puede estandarizar las PC luego si lo desea. Suena extraño, pero puedes hacerlo.
Nick Cox
@NickCox Quizás parezca extraño porque los datos transformados son entonces esféricos, lo que parece poco informativo. Sin embargo, es la transformación lo que necesito saber, y no el resultado final. Aún no sé cómo sería la transformación. Sin embargo, todavía estoy leyendo sobre PCA.
Angelorf

Respuestas:

31

Primero, obtienes la media cero restando la media μ=1Nx .

En segundo lugar, obtienes las covarianzas cero al hacer PCA. Si es la matriz de covarianza de sus datos, entonces PCA equivale a realizar una descomposición propia , donde es una matriz de rotación ortogonal compuesta de vectores propios de y es una matriz diagonal con valores propios en la diagonal. Matrix proporciona una rotación necesaria para descorrelacionar los datos (es decir, asigna las características originales a los componentes principales).ΣΣ=UΛUUΣΛU

Tercero, después de la rotación, cada componente tendrá una variación dada por un valor propio correspondiente. Entonces, para hacer variaciones iguales a , debe dividir por la raíz cuadrada de .1Λ

En conjunto, la transformación de blanqueamiento es . Puede abrir los corchetes para obtener el formulario que está buscando.xΛ1/2U(xμ)


Actualizar. Consulte también este hilo posterior para obtener más detalles: ¿Cuál es la diferencia entre el blanqueamiento ZCA y el blanqueamiento PCA?

ameba dice Reinstate Monica
fuente
2
Creo que necesita dividir por las raíces cuadradas de los valores propios, ya que se trata de escalar por SD, no de varianza.
Nick Cox
@ NickCox: sí, por supuesto que tienes razón. Corrija mi respuesta. ¡Gracias!
ameba dice Reinstate Monica el
1
He verificado empíricamente la fórmula. ¡Gracias por ayudarme!
Angelorf