¿Qué se entiende por PCA preservando solo grandes distancias por pares?

10

Actualmente estoy leyendo sobre la técnica de visualización t-SNE y se mencionó que uno de los inconvenientes de usar el análisis de componentes principales (PCA) para visualizar datos de alta dimensión es que solo conserva grandes distancias por pares entre los puntos. Los puntos de significado que están muy separados en el espacio de alta dimensión también aparecerían muy separados en el subespacio de baja dimensión, pero aparte de eso, todas las demás distancias por pares se arruinarían.

¿Podría alguien ayudarme a entender por qué es eso y qué significa gráficamente?

usuario
fuente
PCA está estrechamente relacionado con las distancias de Euclidian y Mahalanobis, que son miopes en dimensiones más altas, no pueden ver distancias pequeñas.
Aksakal
Tenga en cuenta también que PCA, visto como el MDS métrico más simple, se trata de reconstruir distancias euclidianas cuadradas sumadas . Hense, la precisión para pequeñas distancias sufre.
ttnphns

Respuestas:

8

Considere el siguiente conjunto de datos:

Conjunto de datos de PCA

El eje PC1 está maximizando la varianza de la proyección. Entonces, en este caso, obviamente irá en diagonal desde la esquina inferior izquierda a la esquina superior derecha:

PCA preservando solo grandes distancias por pares

La mayor distancia por pares en el conjunto de datos original es entre estos dos puntos periféricos; observe que se conserva casi exactamente en la PC1. Las distancias por pares más pequeñas pero aún sustanciales se encuentran entre cada uno de los puntos periféricos y todos los demás puntos; esos se conservan razonablemente bien también. Pero si observa las distancias por pares aún más pequeñas entre los puntos en el grupo central, verá que algunos de ellos están muy distorsionados.

Creo que esto da la intuición correcta: PCA encuentra un subespacio de baja dimensión con máxima varianza. La varianza máxima significa que el subespacio tenderá a estar alineado como para acercarse a los puntos que se encuentran muy lejos del centro; por lo tanto, las mayores distancias por pares tenderán a conservarse bien y las más pequeñas lo harán menos.

Sin embargo, tenga en cuenta que esto no puede convertirse en un argumento formal porque, de hecho, no es necesariamente cierto. Eche un vistazo a mi respuesta en ¿Cuál es la diferencia entre el análisis de componentes principales y el escalado multidimensional? Si toma los puntos de las figuras anteriores, construya una matriz de distancias por pares y pregunte cuál es la proyección 1D que conserva las distancias lo más cerca posible, entonces la respuesta está dada por la solución MDS y no está dada por PC1 . Sin embargo, si considera una matriz de productos escalares centrados en pares, entonces es1010×1010×10de hecho, es mejor preservado precisamente por PC1 (vea mi respuesta allí para la prueba). Y se puede argumentar que grandes distancias por pares generalmente también significan grandes productos escalares; de hecho, uno de los algoritmos MDS (clásico / Torgerson MDS) está dispuesto a hacer esta suposición explícitamente.

Para resumir:

  1. PCA apunta a preservar la matriz de productos escalares por pares, en el sentido de que la suma de las diferencias al cuadrado entre los productos escalares originales y reconstruidos debe ser mínima.
  2. Esto significa que conservará los productos escalares con mayor valor absoluto y se preocupará menos por aquellos con un valor absoluto pequeño, ya que agregan menos a la suma de los errores al cuadrado.
  3. Por lo tanto, PCA conserva los productos escalares más grandes mejor que los más pequeños.
  4. Las distancias por pares se conservarán solo en la medida en que sean similares a los productos escalares, lo que a menudo pero no siempre es el caso. Si es el caso, las distancias por pares más grandes también se conservarán mejor que las más pequeñas.
ameba
fuente
No creo que este sea un visual correcto. No muestra cómo las cosas empeoran con el aumento de la dimensionalidad
Aksakal
2
No estoy seguro de entender tu punto, @ Aksakal. Considere publicar una respuesta alternativa con su punto de vista. Creo que el efecto de preservar mejor las distancias por pares más grandes que las más pequeñas ya está presente en 2D, y uno no necesita pensar en la alta dimensionalidad para comprender lo que está sucediendo. Por lo tanto, me concentré en un simple ejemplo 2D.
ameba
Lo que dibujó sería aplicable a cualquier método. Puedo poner un par de puntos muy lejos y argumentar que sobrepasan el resto. El problema con las distancias euclidianas es que su rango dinámico se reduce con el aumento de la dimensionalidad
Aksakal
+1, pero cambiaría un acento, algo diferente de lo que hiciste (punto 4 en su mayoría). La cuestión no es que estas son distancias y que son productos escalares (la matriz de "doble centrado"), después de todo, dada la diagonal, conservan información idéntica. Más bien, el problema es exactamente análogo a las probabilidades de análisis PCA vs Factor. El PCoA de Torgerson, como PCA, tendrá como objetivo maximizar la reconstrucción del sc. pinchar. matriz principalmente a través de su diagonal, sin controlar específicamente cómo se ajustarán las entradas fuera de la diagonal.
ttnphns
(cont.) La traza de la diagonal mencionada es la variabilidad general y está directamente relacionada con la suma de todas las distancias cuadradas en pares, dejando atrás las distancias individuales. También podría expresarse en términos del teorema de Eckart-Young que establece que la nube de datos reconstruida por PCA es más cercana en términos de suma de cuadrados a la original; es decir, la distancia al cuadrado general entre los puntos antiguos y sus puntos proyectados por PCA es mínima. Esto no es lo mismo que las antiguas distancias por pares: las nuevas relaciones de distancias pw.
ttnphns