¿Cómo determinar los parámetros para t-SNE para reducir dimensiones?

11

Soy muy nuevo en las incrustaciones de palabras. Quiero visualizar cómo se ven los documentos después de aprender. Leí que t-SNE es el enfoque para hacerlo. Tengo 100K documentos con 250 dimensiones como tamaño de la incrustación. También hay varios paquetes disponibles.

Sin embargo, para t-SNE, no sé cuántas iteraciones o el valor de alfa o el valor de perpetuidad debería mantener para aprender mejor.

¿Son estos hiperparámetros o pueden ser determinados por algunos atributos?

silent_dev
fuente

Respuestas:

12

Recomiendo altamente el artículo Cómo usar t-SNE de manera efectiva . Tiene excelentes tramas animadas del proceso de ajuste de tsne, y fue la primera fuente que realmente me dio una comprensión intuitiva de lo que hace tsne.

En un nivel alto, la perplejidad es el parámetro que importa. Es una buena idea probar la perplejidad de 5, 30 y 50, y ver los resultados.

Pero en serio, lea Cómo usar t-SNE de manera efectiva. Hará que su uso de TSNE sea más efectivo.

Para paquetes, use Rtsne en R o sklearn.manifold.TSNE en python

Zach
fuente
2

Citaré las preguntas frecuentes del sitio web de t-SNE . Primero para la perplejidad:

¿Cómo debo configurar la perplejidad en t-SNE?

El rendimiento de t-SNE es bastante robusto en diferentes configuraciones de perplejidad. El valor más apropiado depende de la densidad de sus datos. Hablando en términos generales, se podría decir que un conjunto de datos más grande / más denso requiere una mayor perplejidad. Los valores típicos para el rango de perplejidad entre 5 y 50.

Para todos los demás parámetros, consideraría leer esto:

¿Cómo puedo evaluar la calidad de las visualizaciones que t-SNE construyó?

Preferiblemente, solo míralos! Observe que t-SNE no retiene distancias sino probabilidades, por lo que es inútil medir algún error entre las distancias euclidianas en alta D y baja D. Sin embargo, si usa los mismos datos y perplejidad, puede comparar las divergencias de Kullback-Leibler que informa t-SNE. Está perfectamente bien ejecutar t-SNE diez veces y seleccionar la solución con la menor divergencia de KL.

En otras palabras, significa: mira la trama, si la visualización es buena, no cambies los parámetros. También puede elegir la ejecución con la divergencia KL más baja para cada perplejidad fija.

Daniel Falbel
fuente