Tengo un par de preguntas rápidas sobre PCA:
- ¿El PCA supone que el conjunto de datos es gaussiano?
- ¿Qué sucede cuando aplico un PCA a datos inherentemente no lineales?
Dado un conjunto de datos, el proceso consiste primero en normalizar la media, establecer la varianza en 1, tomar un SVD, reducir el rango y finalmente asignar el conjunto de datos al nuevo espacio de rango reducido. En el nuevo espacio, cada dimensión corresponde a una "dirección" de máxima varianza.
- Pero, ¿la correlación de ese conjunto de datos en el nuevo espacio es siempre cero, o es solo cierto para los datos que son inherentemente gaussianos?
Supongamos que tengo dos conjuntos de datos, "A" y "B", donde "A" corresponde a puntos muestreados aleatoriamente tomados de un gaussiano, mientras que "B" corresponde a puntos muestreados aleatoriamente de otra distribución (por ejemplo, Poisson).
- ¿Cómo se compara la PCA (A) con la PCA (B)?
- Al observar los puntos en el nuevo espacio, ¿cómo determinaría que el PCA (A) corresponde a los puntos muestreados de un gaussiano, mientras que el PCA (B) corresponde a los puntos muestreados de un Poisson?
- ¿Es la correlación de los puntos en "A" 0?
- ¿La correlación de puntos en "B" también es 0?
- Más importante aún, ¿estoy haciendo la pregunta "correcta"?
- ¿Debo mirar la correlación, o hay otra métrica que debería considerar?
Respuestas:
Ya tiene un par de buenas respuestas aquí (+1 para ambos @ Cam.Davidson.Pilon y @MichaelChernick). Permítanme arrojar un par de puntos que me ayudan a pensar sobre este tema.
Primero, PCA opera sobre la matriz de correlación. Por lo tanto, me parece que la pregunta importante es si tiene sentido usar una matriz de correlación para ayudarlo a pensar en sus datos. Por ejemplo, la correlación producto-momento de Pearson evalúa la relación lineal entre dos variables; Si sus variables están relacionadas, pero no linealmente, la correlación no es una métrica ideal para indexar la fuerza de la relación. ( Aquí hay una buena discusión sobre CV sobre correlación y datos no normales).
En segundo lugar, creo que la forma más fácil de entender lo que está sucediendo con PCA es simplemente girando los ejes. Puede hacer más cosas, por supuesto, y desafortunadamente PCA se confunde con el análisis factorial (que definitivamente tiene más en juego). Sin embargo, el PCA antiguo sin campanas ni silbatos puede considerarse de la siguiente manera:
Esta no es una metáfora perfecta para PCA (por ejemplo, no volvimos a escalar las variaciones a 1). Pero le da a la gente la idea básica. El punto ahora es usar esa imagen para pensar en cómo se vería el resultado si los datos no fueran gaussianos para empezar; eso te ayudará a decidir si valió la pena hacer este proceso Espero que ayude.
fuente
Puedo dar una solución parcial y mostrar una respuesta para suw1 w2 Xw1 Xw2 X
segundo parrafofuente
No hay linealidad o normalidad asumida en PCA. La idea es simplemente descomponer la variación en un conjunto de datos p-dimensionales en componentes ortogonales que se ordenan de acuerdo con la cantidad de variación explicada.
fuente
Leyendo la página 7 aquí:
http://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf
Señalan que PCA supone que la distribución de lo que sea que estemos explicando puede describirse por una media (de cero) y una varianza sola, que dicen que solo puede ser la distribución Normal.
(Básicamente, además de la respuesta de Cam, pero no tengo suficiente reputación para comentar)
fuente
Hasta donde yo sé, PCA no asume la normalidad de los datos. Pero si se distribuye normalmente (en sentido más general, distribuido simétricamente), entonces el resultado es más robusto. Como dicen otras personas, la clave es que PCA se basa en la matriz de coeficientes de correlación de Pearson, cuya estimación se ve afectada por valores atípicos y una distribución sesgada. Entonces, en algunos análisis involucrados, como la prueba estadística o el valor p, entonces debería preocuparse más sobre si se cumple la normalidad; pero en otras aplicaciones, como el análisis exploratorio, puede usarlo, pero solo tenga cuidado cuando realice interpretaciones.
fuente
De acuerdo con otros que dijeron que los datos deberían distribuirse "normalmente". Cualquier distribución se superpondrá con una distribución normal si la transforma. Si su distribución no es normal, los resultados que obtendrá serán inferiores en comparación con el caso cuando es normal, como lo afirman algunos aquí ...
Si lee la referencia en la primera respuesta, en la sección del Apéndice se indica que la suposición es una distribución Normal.
fuente