En un problema específico con el que trabajo (una competencia) tengo la siguiente configuración: 21 características (numéricas en [0,1]) y una salida binaria. Tengo aproximadamente 100 K filas. El escenario parece ser muy ruidoso.
Yo y otros participantes aplicamos la generación de características por un tiempo y la inserción de vecinos estocásticos distribuidos en t resultó ser bastante poderosa en este entorno.
Me topé con esta publicación "Cómo usar t-SNE de manera efectiva", pero aún no puedo concluir sobre cómo elegir los hiperparámetros mejor en mi entorno de clasificación.
¿Existen reglas generales (número de características, dimensión de incrustación -> elección de perplejidad)?
Solo aplico la configuración ad-hoc en este momento, ya que lleva demasiado tiempo iterar varias configuraciones. Gracias por cualquier comentario
Respuestas:
Permítanme señalar que lo que describo son heurísticas . Como se mencionó al principio de mi publicación, la inspección manual de los resultados es una forma indispensable de evaluar la calidad de la reducción / agrupación de dimensionalidad resultante.
fuente
Por lo general, establecemos la perplejidad al 5% del tamaño del conjunto de datos. Entonces, para un conjunto de datos con 100K filas, comenzaría con una perplejidad de 5000, o al menos 1000, si no tiene una computadora de alto rendimiento disponible. Nuestros conjuntos de datos provienen del análisis de citometría de flujo, generalmente tienen 50k a 500k puntos de datos, cada uno con 10 a 20 valores numéricos.
fuente
Podría ser interesante que eche un vistazo a la "Selección automática de perplejidad t-SNE" de Cao y Wang :
fuente