t-SNE: ¿Por qué los valores de datos iguales no son visualmente cercanos?

9

Tengo 200 puntos de datos que tienen los mismos valores en todas las funciones.

Después de la reducción de la dimensión t-SNE ya no se ven tan iguales, así: ingrese la descripción de la imagen aquí

¿Por qué no están en el mismo punto en la visualización e incluso parece estar distribuido en dos grupos diferentes?

ScientiaEtVeritas
fuente
44
Asegúrese de leer distill.pub/2016/misread-tsne
Emre
¿Puede ser causado por la precisión (doble / flotante) que está utilizando?
El Burro
La mayoría de los valores son enteros. Y es muy escaso, alrededor de 500 características con ceros en su mayoría. No sé si puede ser causado por la precisión. Pero la distancia entre estos grupos y entre estos puntos de datos es relativamente grande.
ScientiaEtVeritas
¿Qué racimos? Pensé que todos son iguales, ¿o quieres decir la trama?
El Burro
Sí, me refiero a los grupos en la trama.
ScientiaEtVeritas

Respuestas:

3

Tiene razón en que los mismos valores en T-SNE pueden distribuirse en diferentes puntos, la razón por la que esto sucede es clara si observa el algoritmo con el que se ejecuta T-SNE.

x1=[0,1]x2=[0,1]

import numpy as np from sklearn.manifold import TSNE m = TSNE(n_components=2, random_state=0) m.fit_transform(np.array([[0,1],[0,1]]))

También observaría que cambiar el random_staterealmente modifica las coordenadas de salida del modelo. No existe ninguna correlación real entre las coordenadas reales y su salida. Dado que el primer paso de TSNE calcula la probabilidad condicional.

xixjpj|i=exp(||xjxi||22σ2)kiexp(||xjxi||22σ2)pij=pi|j+pj|i2Npijxixj

R2

Entonces, la verdad es que, en lugar de mirar los dos grupos, mire las distancias entre ellos, porque eso transmite más información que las coordenadas mismas.

Espero que esto haya respondido a tu pregunta :)

PSub
fuente