¿Deberían los datos estar centrados + escalados antes de aplicar t-SNE?

18

Algunas de las características de mis datos tienen valores grandes, mientras que otras tienen valores mucho más pequeños.

¿Es necesario centrar + escalar datos antes de aplicar t-SNE para evitar sesgos hacia los valores más grandes?

Uso la implementación sklearn.manifold.TSNE de Python con la métrica de distancia euclidiana predeterminada.

stmax
fuente

Respuestas:

18

El centrado no debería importar ya que el algoritmo solo opera en distancias entre puntos, sin embargo, es necesario volver a escalar si desea que las diferentes dimensiones sean tratadas con la misma importancia, ya que la norma 2 estará más influenciada por dimensiones con gran varianza.

jon_simon
fuente