PCA de datos no gaussianos

20

Tengo un par de preguntas rápidas sobre PCA:

  • ¿El PCA supone que el conjunto de datos es gaussiano?
  • ¿Qué sucede cuando aplico un PCA a datos inherentemente no lineales?

Dado un conjunto de datos, el proceso consiste primero en normalizar la media, establecer la varianza en 1, tomar un SVD, reducir el rango y finalmente asignar el conjunto de datos al nuevo espacio de rango reducido. En el nuevo espacio, cada dimensión corresponde a una "dirección" de máxima varianza.

  • Pero, ¿la correlación de ese conjunto de datos en el nuevo espacio es siempre cero, o es solo cierto para los datos que son inherentemente gaussianos?

Supongamos que tengo dos conjuntos de datos, "A" y "B", donde "A" corresponde a puntos muestreados aleatoriamente tomados de un gaussiano, mientras que "B" corresponde a puntos muestreados aleatoriamente de otra distribución (por ejemplo, Poisson).

  • ¿Cómo se compara la PCA (A) con la PCA (B)?
  • Al observar los puntos en el nuevo espacio, ¿cómo determinaría que el PCA (A) corresponde a los puntos muestreados de un gaussiano, mientras que el PCA (B) corresponde a los puntos muestreados de un Poisson?
  • ¿Es la correlación de los puntos en "A" 0?
  • ¿La correlación de puntos en "B" también es 0?
  • Más importante aún, ¿estoy haciendo la pregunta "correcta"?
  • ¿Debo mirar la correlación, o hay otra métrica que debería considerar?
Vishal
fuente
2
Consulte el apéndice sobre supuestos de PCA en este documento .
asumido normal

Respuestas:

17

Ya tiene un par de buenas respuestas aquí (+1 para ambos @ Cam.Davidson.Pilon y @MichaelChernick). Permítanme arrojar un par de puntos que me ayudan a pensar sobre este tema.

Primero, PCA opera sobre la matriz de correlación. Por lo tanto, me parece que la pregunta importante es si tiene sentido usar una matriz de correlación para ayudarlo a pensar en sus datos. Por ejemplo, la correlación producto-momento de Pearson evalúa la relación lineal entre dos variables; Si sus variables están relacionadas, pero no linealmente, la correlación no es una métrica ideal para indexar la fuerza de la relación. ( Aquí hay una buena discusión sobre CV sobre correlación y datos no normales).

En segundo lugar, creo que la forma más fácil de entender lo que está sucediendo con PCA es simplemente girando los ejes. Puede hacer más cosas, por supuesto, y desafortunadamente PCA se confunde con el análisis factorial (que definitivamente tiene más en juego). Sin embargo, el PCA antiguo sin campanas ni silbatos puede considerarse de la siguiente manera:

  • tiene algunos puntos trazados en dos dimensiones en una hoja de papel cuadriculado;
  • tiene una transparencia con ejes ortogonales dibujados y un orificio en el origen;
  • centras el origen de la transparencia (es decir, el agujero) sobre y pones la punta del lápiz a través del agujero para mantenerlo en su lugar; (X¯,y¯)
  • luego gira la transparencia hasta que los puntos (cuando se indexan de acuerdo con los ejes de la transparencia en lugar de los originales) no estén correlacionados.

Esta no es una metáfora perfecta para PCA (por ejemplo, no volvimos a escalar las variaciones a 1). Pero le da a la gente la idea básica. El punto ahora es usar esa imagen para pensar en cómo se vería el resultado si los datos no fueran gaussianos para empezar; eso te ayudará a decidir si valió la pena hacer este proceso Espero que ayude.

gung - Restablece a Monica
fuente
2
+1 (hace mucho tiempo). Creo que esta es la mejor respuesta en este hilo, espero que reúna un voto más para convertirse en el más votado también. Me gusta su forma de explicar PCA con transparencia, eso es bueno.
ameba dice Reinstate Monica
Por cierto, esta respuesta tuya inspiró mi respuesta reciente en nuestro enorme hilo de PCA laico: hice esos gifs animados teniendo en cuenta tu analogía de transparencia.
ameba dice Reinstate Monica
Esa es una gran respuesta, @amoeba. Es mucho mejor que esto.
gung - Restablece a Monica
13

Puedo dar una solución parcial y mostrar una respuesta para su segundo parrafow1w2Xw1Xw2X

doov(Xw1,Xw2)=mi[(Xw1)T(Xw2)]-mi[Xw1]Tmi[Xw2]
wyoX
w1Tmi[XTX]w2=Vunar(X)w1Tw2=0 0
wyoVunar(X)

XXwXXw

α

Cam.Davidson.Pilon
fuente
7

No hay linealidad o normalidad asumida en PCA. La idea es simplemente descomponer la variación en un conjunto de datos p-dimensionales en componentes ortogonales que se ordenan de acuerdo con la cantidad de variación explicada.

Michael R. Chernick
fuente
2
Es cierto, pero "descomponer la variación en un conjunto de datos p-dimensionales en componentes ortogonales" no es muy útil cuando hay dependencias no lineales entre las variables, ya que la ortogonalización generalmente se realizó para que pueda argumentar que las dimensiones no están relacionadas (lo cual es también relacionado con la parte gaussiana de la pregunta). Cuando está haciendo PCA y planea interpretar los resultados de la manera habitual, existe una suposición subyacente de que los datos viven en un subespacio lineal de menor dimensión .
Macro
2
@Macro No exactamente. Diría que la suposición subyacente es que al menos la mayor parte de la variabilidad y, por lo tanto, el patrón de los datos se concentra en algún espacio dimensional inferior. Puedo ver una parábola muy bien en un espacio bidimensional con componentes ortogonales. Creo que las formas no lineales se pueden ver en dos o tres dimensiones. Si los datos provienen de una distribución gaussiana multivariada, en algún subespacio los puntos deberían verse como una nube elipsoidal. La distribución no tiene que verse como un elipsoide para que su vista en el subespacio de las PC altas sea interesante.
Michael R. Chernick
44
Calificaría esto un poco. No hay suposición de normalidad en PCA clásica o PCA por SVD. Sin embargo, los algoritmos EM para calcular PCA con datos faltantes asumirán normalidad y linealidad.
John
Si bien el camino clásico a PCA no necesita suposiciones, hay otro camino a su solución que sí: PCA probabilístico con 0 ruido de medición.
bayerj
3

Leyendo la página 7 aquí:

http://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf

Señalan que PCA supone que la distribución de lo que sea que estemos explicando puede describirse por una media (de cero) y una varianza sola, que dicen que solo puede ser la distribución Normal.

(Básicamente, además de la respuesta de Cam, pero no tengo suficiente reputación para comentar)

usuario3264325
fuente
1
El enlace que proporcionó al tutorial de Shlens es a la versión 1 del tutorial, pero la versión 3.02 (¿la versión final?) Ahora está disponible, y este punto específico se eliminó. Además, esta pregunta se hizo exactamente al respecto.
Oren Milman
0

Hasta donde yo sé, PCA no asume la normalidad de los datos. Pero si se distribuye normalmente (en sentido más general, distribuido simétricamente), entonces el resultado es más robusto. Como dicen otras personas, la clave es que PCA se basa en la matriz de coeficientes de correlación de Pearson, cuya estimación se ve afectada por valores atípicos y una distribución sesgada. Entonces, en algunos análisis involucrados, como la prueba estadística o el valor p, entonces debería preocuparse más sobre si se cumple la normalidad; pero en otras aplicaciones, como el análisis exploratorio, puede usarlo, pero solo tenga cuidado cuando realice interpretaciones.

KarlHuang
fuente
-1

De acuerdo con otros que dijeron que los datos deberían distribuirse "normalmente". Cualquier distribución se superpondrá con una distribución normal si la transforma. Si su distribución no es normal, los resultados que obtendrá serán inferiores en comparación con el caso cuando es normal, como lo afirman algunos aquí ...

  • Puede transformar su distribución si lo necesita.
  • Puede optar por el PCA y utilizar el Análisis de componentes independientes (ICA) en su lugar.

Si lee la referencia en la primera respuesta, en la sección del Apéndice se indica que la suposición es una distribución Normal.

Ceniza
fuente