¿Cuál es la relación entre el análisis de componentes independientes y el análisis factorial?

67

Soy nuevo en el análisis de componentes independientes (ICA) y tengo una comprensión rudimentaria del método. Me parece que ICA es similar al Análisis Factorial (FA) con una excepción: ICA supone que las variables aleatorias observadas son una combinación lineal de componentes / factores independientes que no son gaussianos, mientras que el modelo clásico FA asume que las variables aleatorias observadas son una combinación lineal de componentes / factores gaussianos correlacionados.

¿Es correcto lo anterior?

stats_student
fuente
1
Vale la pena ver esta respuesta a otra pregunta ( PCA encuentra iterativamente direcciones de mayor varianza; pero ¿cómo encontrar un subespacio completo con la mayor varianza? )
Piotr Migdal

Respuestas:

72

ingrese la descripción de la imagen aquí

FA, PCA e ICA están todos 'relacionados', en la medida en que los tres buscan vectores base contra los que se proyectan los datos, de modo que maximice los criterios de inserción aquí. Piense en los vectores básicos como simplemente encapsulando combinaciones lineales.

Por ejemplo, supongamos que su matriz de datos era una matriz x , es decir, tiene dos variables aleatorias y observaciones de cada una. Entonces, digamos que encontró un vector base de . Cuando extrae (la primera) señal, (llámela vector ), se hace así:Z2NNw=[0.14]y

y=wTZ

Esto solo significa "Multiplica 0.1 por la primera fila de tus datos y resta 4 veces la segunda fila de tus datos". Entonces esto da , que por supuesto es un vector x que tiene la propiedad de que maximizaste su criterio de inserción aquí.y1N

Entonces, ¿cuáles son esos criterios?

Criterios de segundo orden:

En PCA, está encontrando vectores básicos que 'explican mejor' la varianza de sus datos. El primer vector base (es decir, el mejor clasificado) será el que mejor se ajuste a todas las variaciones de sus datos. El segundo también tiene este criterio, pero debe ser ortogonal al primero, y así sucesivamente. (Resulta que esos vectores base para PCA no son más que los vectores propios de la matriz de covarianza de sus datos).

En FA, hay una diferencia entre este y PCA, porque FA es generativo, mientras que PCA no lo es. He visto a FA como descrito como 'PCA con ruido', donde el 'ruido' se llama 'factores específicos'. De todos modos, la conclusión general es que PCA y FA se basan en estadísticas de segundo orden (covarianza) y nada de lo anterior.

Criterios de orden superior:

En ICA, nuevamente está encontrando vectores base, pero esta vez, desea vectores base que den un resultado, de modo que este vector resultante sea uno de los componentes independientes de los datos originales. Puede hacerlo maximizando el valor absoluto de la curtosis normalizada, una estadística de cuarto orden. Es decir, proyecta sus datos en algún vector base y mide la curtosis del resultado. Cambia un poco su vector base (generalmente a través del ascenso del gradiente) y luego mide la curtosis nuevamente, etc. etc. Eventualmente, se encontrará con un vector base que le dará un resultado que tiene la curtosis más alta posible, y esta es su independiente componente.

El diagrama superior de arriba puede ayudarlo a visualizarlo. Puede ver claramente cómo los vectores ICA corresponden a los ejes de los datos (independientes entre sí), mientras que los vectores PCA intentan encontrar direcciones donde se maximiza la varianza. (Algo así como resultante).

Si en el diagrama superior los vectores PCA parecen corresponder a los vectores ICA, es una coincidencia. Aquí hay otra instancia sobre diferentes datos y matriz de mezcla donde son muy diferentes. ;-)

ingrese la descripción de la imagen aquí

Spacey
fuente
2
Parece que estás familiarizado con ambos métodos. Como persona competente, ¿puede responder si esos métodos implican inherentemente que los vectores base son ortogonales? ¿Cómo podría uno descubrir los componentes primarios o independientes que tienen una proyección distinta de cero entre sí, algo así como dos nubes de puntos orientadas aproximadamente a un ángulo de 45 grados entre sí?
mbaitoff
2
@mbaitoff ICA recuperará un conjunto de vectores de base ortogonal, sí. En segundo lugar, cuando tiene lo que está pidiendo, dos señales que tienen una proyección distinta de cero entre sí, eso es exactamente lo que ICA está tratando de deshacer. Es por eso que los vectores de base finales encontrados por ICA son ortogonales entre sí. Luego, cuando proyecte sus datos en esos dos nuevos vectores, serán ortogonales entre sí.
Spacey
1
@Tarantula He hecho una pregunta sobre lo que estoy hablando: stats.stackexchange.com/questions/6575/… , puedes ver la ilustración, i.stack.imgur.com/U6fWb.png . No puedo entender cómo una base ortogonal describiría esas dos nubes. Para mí es obvio que dos vectores que describen las principales direcciones de oscilación no son ortogonales.
mbaitoff
@mbaitoff Tomó sus datos de dos sensores, los trazó uno contra el otro y vio esos dos modos, por lo que sabe que al menos están correlacionados. Entonces la pregunta es, ¿cómo puedes proyectar todos los puntos que tienes allí, de modo que sean independientes? (es decir, sobre una base ortogonal como lo que encuentra ICA). Eso es lo que ICA encuentra para ti. No entiendo lo que quieres decir cuando dices "No puedo entender cómo una base ortogonal describiría esas dos nubes". Por qué no?
Spacey
@Tarantula ¡Oh, ahora veo lo que eso significa! Pensé que era como 'encontrar dos vectores ortogonales en la trama original', mientras que en realidad significa 'encontrar dos vectores en la trama original, una proyección en la que los hará ortogonales (independientes)'.
mbaitoff
31

No exactamente. El análisis factorial opera con los segundos momentos, y realmente espera que los datos sean gaussianos para que las razones de probabilidad y cosas así no se vean afectadas por la no normalidad. ICA, por otro lado, está motivado por la idea de que cuando sumas cosas, obtienes algo normal, debido a CLT, y realmente espera que los datos no sean normales, de modo que los componentes no normales puedan extraerse de ellos. Para explotar la no normalidad, ICA intenta maximizar el cuarto momento de una combinación lineal de las entradas:

maxa:a=11ni[a(xix¯)]4

En todo caso, ICA debe compararse con PCA, que maximiza el segundo momento (varianza) de una combinación estandarizada de entradas.

StasK
fuente
respuesta agradable y crujiente
Subhash C. Davar
¿Cuál es el cuarto momento aquí? PL. EXPLICAR.
Subhash C. Davar
@ subhashc.davar El cuarto momento es curtosis, es decir, el grado en que los datos eran más pesados ​​o más livianos que la distribución normal. en.wikipedia.org/wiki/Kurtosis
javadba