¿Son los componentes de PCA (en el análisis de componentes principales) estadísticamente independientes si nuestros datos son multivariados normalmente distribuidos? Si es así, ¿cómo se puede demostrar / probar esto?
Pregunto porque vi esta publicación , donde la respuesta principal dice:
PCA no hace una suposición explícita de Gaussianity. Encuentra los vectores propios que maximizan la varianza explicada en los datos. La ortogonalidad de los componentes principales significa que encuentra los componentes menos correlacionados para explicar la mayor variación posible en los datos. Para las distribuciones gaussianas multivariadas, la correlación cero entre componentes implica independencia, lo que no es cierto para la mayoría de las distribuciones.
La respuesta se establece sin una prueba, y parece implicar que PCA produce componentes independientes si los datos son multivariados normales.
Específicamente, digamos que nuestros datos son muestras de:
ponemos muestras de en filas de nuestra matriz de muestras , entonces es . Calcular el SVD de (después del centrado) produce
¿Podemos decir que las columnas de son estadísticamente independientes, también las filas de ? ¿Es esto cierto en general, solo para , o no es cierto en absoluto?
fuente
Respuestas:
Comenzaré con una demostración intuitiva.
Genere observaciones (a) de una distribución 2D fuertemente no gaussiana, y (b) de una distribución gaussiana 2D. En ambos casos, centré los datos y realicé la descomposición del valor singular Xn=100 . Luego, para cada caso, hice un diagrama de dispersión de las dos primeras columnas de U , una contra otra. Tenga en cuenta que generalmente las columnas de U S se denominan "componentes principales" (PC); las columnas de U son PC escaladas para tener la norma de la unidad; Sin embargo, en esta respuesta me estoy centrando en columnas de U . Aquí están los diagramas de dispersión:X=USV⊤ U US U U
Creo que las declaraciones como "los componentes de PCA no están correlacionados" o "los componentes de PCA son dependientes / independientes" generalmente se hacen sobre una matriz de muestra específica y se refieren a las correlaciones / dependenciasentre filas(ver, por ejemplo,la respuesta de @ ttnphns aquí). PCA produce una matriz de datos transformada U , donde las filas son observaciones y las columnas son variables de PC. Es decir, podemos ver U comomuestray preguntar cuál es la correlación de muestra entre las variables de PC. Por supuesto, esta matriz de correlación de muestra viene dada por U ⊤ U = IX U U U⊤U=I , lo que significa que las correlaciones de muestra entre las variables de PC son cero. Esto es lo que la gente quiere decir cuando dice que "PCA diagonaliza la matriz de covarianza", etc.
Conclusión 1: en las coordenadas PCA, cualquier dato tiene correlación cero.
Esto es cierto para los dos diagramas de dispersión anteriores. Sin embargo, es inmediatamente evidente que las dos variables de PC y y en el diagrama de dispersión a la izquierda (no gaussiana) no son independientes; a pesar de que tienen correlación cero, son fuertemente dependientes y de hecho están relacionados por a y ≈ a ( x - b ) 2 . Y de hecho, es bien sabido que no correlacionado no significa independiente .x y y≈a(x−b)2
Por el contrario, las dos variables de PC e y en el diagrama de dispersión derecho (gaussiano) parecen ser "bastante independientes". Calcular cualquier información mutua entre ellos (que es una medida de dependencia estadística: las variables independientes tienen cero información mutua) mediante cualquier algoritmo estándar producirá un valor muy cercano a cero. No será exactamente cero, porque nunca es exactamente cero para cualquier tamaño de muestra finito (a menos que esté ajustado); Además, existen varios métodos para calcular la información mutua de dos muestras, dando respuestas ligeramente diferentes. Pero podemos esperar que cualquier método produzca una estimación de información mutua que sea muy cercana a cero.x y
Conclusión 2: en las coordenadas PCA, los datos gaussianos son "bastante independientes", lo que significa que las estimaciones estándar de dependencia serán alrededor de cero.
La pregunta, sin embargo, es más complicada, como lo demuestra la larga cadena de comentarios. De hecho, @whuber señala acertadamente que las variables de PCA e y (columnas de U )debenser estadísticamente dependientes: las columnas deben ser de longitud unitaria y ortogonales, y esto introduce una dependencia. Por ejemplo, si algún valor en la primera columna es igual a 1 , entonces el valor correspondiente en la segunda columna debe ser 0 .x y U 1 0
Esto es cierto, pero solo es prácticamente relevante para muy pequeño , como por ejemplo n = 3 (con n = 2 después del centrado, solo hay una PC). Para cualquier tamaño de muestra razonable, como n =n n=3 n=2 muestra en mi figura anterior, el efecto de la dependencia será insignificante; las columnas de U son proyecciones (a escala) de datos gaussianos, por lo que también son gaussianas, lo que hace que sea prácticamente imposible que un valor esté cerca de 1 (esto requeriría que todos los demáselementos n - 1 estén cerca de 0 , lo cual es apenas una distribución gaussiana).n=100 U 1 n−1 0
Conclusión 3: estrictamente hablando, para cualquier finita , los datos gaussianos en las coordenadas PCA son dependientes; sin embargo, esta dependencia es prácticamente irrelevante para cualquier n ≫ 1 .n n≫1
Podemos hacer esto preciso considerando lo que sucede en el límite de . En el límite del tamaño de muestra infinito, la matriz de covarianza de la muestra es igual a la matriz de covarianza de la población Σ . Así que si el vector de datos X se muestrea desde → X ~ N ( 0 , Σ ) , entonces las variables de PC son → Y = Λ - 1 / 2 V ⊤n→∞ Σ X X⃗ ∼N(0,Σ) (dondeΛyVY⃗ =Λ−1/2V⊤X⃗ /(n−1) Λ V son valores propios y vectores propios de ) y → Y ∼ N ( 0 , I / ( n - 1 ) ) . Es decir, las variables de PC provienen de un gaussiano multivariado con covarianza diagonal. Pero cualquier matriz gaussiana multivariada con covarianza diagonal se descompone en un producto de gaussianos univariados, y esta es la definición de independencia estadística :Σ Y⃗ ∼N(0,I/(n−1))
Conclusión 4: las variables PC asintóticamente ( ) de los datos gaussianos son estadísticamente independientes como variables aleatorias, y la información mutua de muestra dará el valor de población cero.n→∞
Debo señalar que es posible entender esta pregunta de manera diferente (ver comentarios de @whuber): considerar toda la matriz una variable aleatoria (obtenida de la matriz aleatoria X a través de una operación específica) y preguntar si hay dos elementos específicos U i j y U k l a partir de dos columnas diferentes son estadísticamente independientes a través de diferentes sorteos de X . Exploramos esta pregunta en este hilo posterior .U X Uij Ukl X
Aquí están las cuatro conclusiones provisionales de arriba:
fuente