Independencia lineal versus independencia estadística (PCA e ICA)

8

Estoy leyendo este interesante artículo sobre la aplicación de ICA a los datos de expresión génica.

Los autores escriben:

[T] aquí no hay ningún requisito para que los componentes de PCA sean estadísticamente independientes.

Eso es cierto, pero las PC son ortogonales, ¿no es así?

Estoy un poco confuso en cuanto a cuál es la relación entre la independencia estadística y la ortogonalidad o la independencia lineal.

Vale la pena señalar que si bien ICA también proporciona una descomposición lineal de la matriz de datos, el requisito de independencia estadística implica que la matriz de covarianza de datos está decorelacionada de una manera no lineal, en contraste con PCA donde la decorelación se realiza linealmente.

No entiendo eso ¿Cómo se sigue la falta de linealidad de la independencia estadística?

Pregunta: ¿cómo se relaciona la independencia estadística de componentes en ICA con la independencia lineal de componentes en PCA?

enero
fuente

Respuestas:

10

Es probable que esto sea un duplicado de algunas preguntas anteriores, pero responderé brevemente de todos modos.

Para una explicación no técnica, encuentro bastante útil esta figura del artículo de Wikipedia sobre Correlación y dependencia :

ingrese la descripción de la imagen aquí

Los números sobre cada diagrama de dispersión muestran coeficientes de correlación entre X e Y. Observe la última fila: en cada diagrama de dispersión la correlación es cero, es decir, X e Y son "linealmente independientes". Sin embargo, obviamente no son estadísticamente independientes: si conoce el valor de X, puede reducir los posibles valores de Y. Si X e Y fueran independientes, significaría que saber X no le dice nada sobre Y.

El propósito de ICA es tratar de encontrar componentes independientes. En PCA solo obtienes componentes no correlacionados ("ortogonales"); la correlación entre ellos es cero pero pueden muy bien ser estadísticamente dependientes.

ameba
fuente
2
Ah! (cara de la palma) Bien, de alguna manera comencé a diseccionar el ICA y terminé sin ver lo obvio. ¡Gracias! Utilizo el mismo ejemplo para explicar el mismo problema a otros ...
Enero
1
Tendemos a "equiparar" "ortogonalidad" con "correlación cero", pero esto es cierto solo cuando una de las variables involucradas tiene media cero.
Alecos Papadopoulos
2
@Alecos, eso es correcto (+1), pero los análisis como PCA o ICA casi siempre se realizan en variables centradas, por lo que esta distinción no es relevante.
ameba
1
De hecho, ese es el problema en general. En econometría, la ortogonalidad se discute principalmente con respecto al "término de error" de una regresión que tiene media cero, por lo que aquí también tiende a equipararse con "covarianza cero". Entonces, las personas corren el peligro de olvidar que, en general, no son iguales y, por lo tanto, pueden terminar asumiendo erróneamente eso en una situación en la que las variables no están centradas en su media.
Alecos Papadopoulos
Encontré una oración: "Aunque no están correlacionados, los componentes principales pueden ser altamente dependientes estadísticamente". Después de su respuesta, ¿es razonable entenderlo de la siguiente manera: sabiendo qué es una PC, podemos decir algo sobre una PC diferente?
camillejr