t-SNE versus MDS

21

He estado leyendo algunas preguntas sobre t-SNE ( t-Distributed Stochastic Neighbor Embedded ) últimamente, y también visité algunas preguntas sobre MDS ( Multidimensional Scaling ).

A menudo se usan de manera análoga, por lo que parecía una buena idea hacer esta pregunta, ya que aquí hay muchas preguntas sobre ambas por separado (o en comparación con PCA ).


En resumen, ¿qué diferencia a t-SNE y MDS? p.ej. Qué sutilezas de la jerarquía de datos exploran, diferentes supuestos, etc.

¿Tasa de convergencia? ¿Qué pasa con el uso de núcleos, ambos cumplen?

Firebug
fuente

Respuestas:

19

PCA selecciona dimensiones influyentes por análisis propio de los N puntos de datos, mientras que MDS selecciona dimensiones influyentes por análisis propio de los puntos de datos de una matriz de distancia por pares. Esto tiene el efecto de resaltar las desviaciones de la uniformidad en la distribución. Considerando la matriz de distancia como análoga a un tensor de tensión, MDS puede considerarse un algoritmo de diseño "dirigido por la fuerza", cuya complejidad de ejecución es O ( d N a ) donde 3 < a 4 . norte2O(renorteuna)3<una4 4

t-SNE, por otro lado, utiliza una aproximación de campo para ejecutar una forma algo diferente de diseño dirigido por la fuerza, generalmente a través de Barnes-Hut, que reduce una complejidad basada en gradiente a O ( d N log ( N ) ) , pero las propiedades de convergencia se entienden menos para este método iterativo de aproximación estocástica (que yo sepa), y para 2 d 4O(renorte2)O(renorteIniciar sesión(norte))2re4 4Los tiempos de ejecución típicos observados son generalmente más largos que otros métodos de reducción de dimensiones. Los resultados son a menudo más visualmente interpretables que el análisis propio ingenuo, y dependiendo de la distribución, a menudo más intuitivos que los resultados de MDS, que tienden a preservar la estructura global a expensas de la estructura local retenida por t-SNE.

MDS ya es una simplificación del núcleo PCA, y debería ser extensible con núcleos alternativos, mientras que el núcleo t-SNE se describe en el trabajo de Gilbrecht, Hammer, Schulz, Mokbel, Lueks et al. No estoy prácticamente familiarizado con él, pero quizás otro encuestado pueda estarlo.

Tiendo a seleccionar entre MDS y t-SNE sobre la base de objetivos contextuales. Cualquiera que aclare la estructura que me interesa resaltar, la estructura que tenga el mayor poder explicativo, ese es el algoritmo que uso. Esto puede considerarse una trampa, ya que es una forma de grado de libertad del investigador. Pero la libertad usada sabiamente no es tan mala.

aminorex
fuente
¡Muy interesante! ¿Puedo pedirle una aclaración sobre la interpretación de MDS como un algoritmo de diseño "dirigido por la fuerza" y cómo es diferente, en este sentido, a t-SNE?
Garini