Estoy tratando de entender algunas descripciones de PCA (las dos primeras son de Wikipedia), énfasis agregado:
Se garantiza que los componentes principales serán independientes solo si el conjunto de datos se distribuye normalmente de manera conjunta .
¿Es muy importante la independencia de los componentes principales? ¿Cómo puedo entender esta descripción?
PCA es sensible a la escala relativa de las variables originales.
¿Qué significa 'escala' allí? ¿Normalización de diferentes dimensiones?
La transformación se define de tal manera que el primer componente principal tiene la mayor varianza posible y cada componente siguiente a su vez tiene la mayor varianza bajo la restricción de que sea ortogonal a los componentes anteriores .
¿Puedes explicar esta restricción?
fuente
Respuestas:
Q1. Los componentes principales son variables mutuamente ortogonales (no correlacionadas). La ortogonalidad y la independencia estadística no son sinónimos . No hay nada especial en los componentes principales; Lo mismo se aplica a cualquier variable en el análisis de datos multivariados. Si los datos son multivariados normales (que no es lo mismo que afirmar que cada una de las variables es univariablemente normal) y las variables no están correlacionadas, entonces sí, son independientes. Si la independencia de los componentes principales es importante o no, depende de cómo los vaya a utilizar. Muy a menudo, su ortogonalidad será suficiente.
Q2 Sí, escalar significa reducir o estirar la varianza de las variables individuales. Las variables son las dimensiones del espacio en el que se encuentran los datos. Los resultados de PCA, los componentes, son sensibles a la forma de la nube de datos, la forma de ese "elipsoide". Si solo centra las variables, deje las variaciones como están, esto a menudo se llama "PCA basado en covarianzas". Si también estandariza las variables a varianzas = 1, esto a menudo se llama "PCA basado en correlaciones", y puede ser muy diferente de la primera (ver un hilo ). Además, relativamente pocas personas hacen PCA en datos no centrados: datos en bruto o simplemente escalados a la magnitud de la unidad; Los resultados de dicha PCA son aún más diferentes de donde se centran los datos (ver una imagen ).
Q3. La "restricción" es cómo funciona PCA (ver un hilo enorme ). Imagine que sus datos son una nube tridimensional (3 variables, puntos); el origen se establece en el centroide (la media) del mismo. PCA dibuja el componente1 como tal eje a través del origen, la suma de las proyecciones cuadradas (coordenadas) en las que se maximiza ; es decir, la varianza a lo largo del componente1 se maximiza. Una vez definido el componente 1, se puede eliminar como una dimensión, lo que significa que los puntos de datos se proyectan en el plano ortogonal a ese componente. Te queda una nube bidimensional. Por otra parte, aplica el procedimiento anterior para encontrar el eje de máximan varianza: ahora en este remanente, nube 2D. Y eso será componente2. Elimina el componente dibujado2 del plano proyectando puntos de datos en la línea ortogonal a él. Esa línea, que representa la nube remanente 1D, se define como el último componente, componente 3. Puede ver que en cada uno de estos 3 "pasos", el análisis a) encontró la dimensión de la mayor varianza en el espacio -dimensional actual , b) redujo los datos a las dimensiones sin esa dimensión, es decir, al espacio dimensional ortogonal a la dimensión mencionada. Así es como resulta que cada componente principal es una "varianza máxima" y todos los componentes son mutuamente ortogonales (ver también ).p p−1
[ PD Tenga en cuenta que "ortogonal" significa dos cosas: (1) ejes variables como ejes físicamente perpendiculares; (2) variables no correlacionadas por sus datos. Con PCA y algunos otros métodos multivariados, estas dos cosas son lo mismo. Pero con algunos otros análisis (por ejemplo, análisis discriminante), las variables latentes extraídas no correlacionadas no significan automáticamente que sus ejes sean perpendiculares en el espacio original.]
fuente