Según el artículo de Hinton, entiendo que T-SNE hace un buen trabajo al mantener las similitudes locales y un trabajo decente en la preservación de la estructura global (clusterización).
Sin embargo, no estoy claro si los puntos que aparecen más cerca en una visualización 2D t-sne pueden asumirse como puntos de datos "más similares". Estoy usando datos con 25 características.
Como ejemplo, observando la imagen a continuación, ¿puedo suponer que los puntos de datos azules son más similares a los verdes, específicamente al grupo de puntos verdes más grande? O, preguntando de manera diferente, ¿está bien suponer que los puntos azules son más similares al verde en el grupo más cercano que a los rojos en el otro grupo? (sin tener en cuenta los puntos verdes en el grupo rojo-ish)
Al observar otros ejemplos, como los presentados en sci-kit learn Aprendizaje múltiple, parece correcto asumir esto, pero no estoy seguro de si es correcto estadísticamente hablando.
EDITAR
He calculado las distancias desde el conjunto de datos original manualmente (la distancia euclidiana media por pares) y la visualización en realidad representa una distancia espacial proporcional con respecto al conjunto de datos. Sin embargo, me gustaría saber si esto es bastante aceptable de esperar de la formulación matemática original de t-sne y no una mera coincidencia.
fuente
Respuestas:
Presentaría t-SNE como una adaptación probabilística inteligente de la incrustación localmente lineal. En ambos casos, intentamos proyectar puntos desde un espacio dimensional alto a uno pequeño. Esta proyección se realiza optimizando la conservación de distancias locales (directamente con LLE, preproduciendo una distribución probabilística y optimizando la divergencia KL con t-SNE). Entonces, si su pregunta es, ¿mantiene distancias globales, la respuesta es no. Dependerá de la "forma" de sus datos (si la distribución es suave, entonces las distancias deben conservarse de alguna manera).
t-SNE en realidad no funciona bien en el rollo suizo (su imagen 3D "S") y puede ver que, en el resultado 2D, los puntos amarillos muy medios generalmente están más cerca de los rojos que los azules ( están perfectamente centrados en la imagen 3D).
Otro buen ejemplo de lo que hace t-SNE es la agrupación de dígitos escritos a mano. Vea los ejemplos en este enlace: https://lvdmaaten.github.io/tsne/
fuente