Tengo 200 puntos de datos que tienen los mismos valores en todas las funciones.
Después de la reducción de la dimensión t-SNE ya no se ven tan iguales, así:
¿Por qué no están en el mismo punto en la visualización e incluso parece estar distribuido en dos grupos diferentes?
visualization
dimensionality-reduction
tsne
ScientiaEtVeritas
fuente
fuente
Respuestas:
Tiene razón en que los mismos valores en T-SNE pueden distribuirse en diferentes puntos, la razón por la que esto sucede es clara si observa el algoritmo con el que se ejecuta T-SNE.
import numpy as np from sklearn.manifold import TSNE m = TSNE(n_components=2, random_state=0) m.fit_transform(np.array([[0,1],[0,1]]))
También observaría que cambiar el
random_state
realmente modifica las coordenadas de salida del modelo. No existe ninguna correlación real entre las coordenadas reales y su salida. Dado que el primer paso de TSNE calcula la probabilidad condicional.Entonces, la verdad es que, en lugar de mirar los dos grupos, mire las distancias entre ellos, porque eso transmite más información que las coordenadas mismas.
Espero que esto haya respondido a tu pregunta :)
fuente